人 工 智 能 是 第 四 次 科技 革命 ， 改 变 世界 


我 们 正 处 在 一 个 巨变 的 时 代 ， 人 工 智 能 已 经 成 为 这 个 时 代 的 主题 。 人 工 智能 成 为 第 四 次 工业 革命 的 核心 驱动 力 ， 并 将 像 机 械 化 、 电 气 化 、 信 息 化 一 样 ， 最 终 渗透 到 每 一 个 行业 的 每 一 个 角落 ， 将 人 类 历 
史 推 入 一 个 轩 新 的 科技 时 代 。 人 工 智 能 将 重 塑 全 球 制造 业 竞争 新 格局 ， 引 爆 新 一 轮 产业 革命 。 我 国 和 主要 发 达 国家 都 在 积极 布局 人 工 智 能 ， 将 其 作为 新 产业 革命 的 引爆 点 ， 加 大 科技 投入 ， 加 快 产业 化 进 
程 。 人 工 智能 将 对 战略 新 兴 产 业 形成 整体 性 突破 ， 并 带 来 巨大 的 市 场 空 间 。 人 工 智能 出 现 之 后 ， 那 些 重复 性 的 工作 ， 不 管 是 体力 的 还 是 脑力 的 ， 都 可 能 会 慢 慢 消 失 ， 但 是 创意 性 的 、 更 高 端的 工作 将 产生 。 


以 1956 年 的 达 特 茅 斯 会 议 (Dartmouth Conference) 为 起 点 ， 人 工 智能 经 过 了 60 余 年 的 发 展 ， 经 历 了 逻辑 推理 理论 和 专家 系统 的 两 次 繁荣 ， 也 经 历 了 随 之 而 来 的 两 次 寒冬 。 在 最 近 的 十 年 间 ， 人 工 智 
能 技术 再 次 出 现 了 前 所 未 有 的 爆发 性 增长 和 繁荣 期 。 机 器 学 习 技 术 ， 尤 其 是 深度 学 习 技 术 的 兴起 是 本 次 人 工 智 能 繁荣 大 潮 的 重要 推动 力 。 以 互联 网 为 代表 ， 国 内 外 企业 纷纷 成 立 专 注 于 人 工 智 能 的 研发 部 
门 。 在 人 工 智能 浪潮 的 推动 下 ， 学 术 界 与 工业 界 紧 密 合 作 ， 探 索 全 新 的 科研 领域 ， 并 将 科技 成 果 逐 渐 辐 射 到 各 行 各 业 。 


现 阶 段 ， 人 工 智 能 在 语音 、 图 像 、 自 然 语言 处 理 等 技术 上 取得 了 前 所 未 有 的 突破 。 本 轮 人 工 智能 的 快速 友 展 离 不 开 三 大 关键 要 素 。 


第 一 ， 大 规模 、 高 性 能 的 云端 计算 硬件 集群 是 人 工 智 能 发 展 的 强劲 引擎 。 目 前 深度 学 习 算 法 模型 结构 复杂 、 规 模 大 、 参 数 多 ; 模型 的 开发 门槛 很 高 。 面 对 这 些 挑战 ， 高 性 能 的 硬件 ， 如 GPU、FPGA、 
ASIC 等 ， 尤 其 是 面向 人 工 智 能 应 用 的 专用 忌 片 的 发 展 ， 让 机 器 学 习 的 训练 速度 提升 数 倍 。 


第 二 ,数据 是 推动 人 工 智 能 发 展 的 燃料 ， 机 器 学 习 技 术 需 要 大 量 标注 数据 来 进行 模型 训练 ， 在 海量 数据 样本 的 基础 上 挖 所 信息， 得 到 有 用 的 知识 ， 从 而 做 出 决策 。 移 动 互 联网 、loT 物 联网 的 发 展 ， 不 止 
让 手机 这 样 的 移动 设备 接 入 互联 网 ， 音 箱 、 电 视 、 冰 箱 都 可 以 接 入 云 ， 获 得 人 工 智 能 的 能 力 和 服务 。 用 户 通过 这 些 设备 感受 到 Al 带 来 的 便利 ， 实 际 其 背后 是 云 上 提供 的 服务 。 云 是 Al 的 container， 如 果 将 Al 
比 作 电 的 话 ， 云 就 是 核电 站 ， 为 各 行 各 业 提 供 源源 不 断 的 智能 核 动力 。 

第 三 ， 是 不 断 推 陈 出 新 的 人 工 智 能 算法 ， 从 卷 积 神经 网 络 (Convolutional Neural Network，CNN) 到 递归 神经 网 络 (Recurrent Neural Network，RNN) ， 从 生成 式 对 抗 网 络 (Generative 
Adversarial Networks，GANs) 到 迁移 学 习 (Transfer Learning) 。 每 一 次 新 算法 的 提出 或 改进 ， 都 带 来 了 应 用 效果 的 大 幅 提 升 。 人 工 智能 技术 在 语音 、 图 像 、 自 然 语言 等 众多 领域 的 使 用 ， 推 动 了 这 次 
人 工 智 能 大 潮 的 持续 发 展 。 


人 工 智能 正在 改变 世界 ， 它 还 处 在 婴儿 时 代 ， 还 有 巨大 的 发 展 空间 。 人 工 智 能 将 融合 百业 千 行 ， 并 创造 出 全 新 的 领域 。 


ABC 融合 ， 加 速 物 理 世界 与 数字 世界 的 融合 


综合 来 看 ， 以 人 工 智能 (Al) 为 代表 ， 大 数据 (Big Data) 、 云 计算 (Cloud Computing) 等 一 系列 互联 网 技术 都 在 驱动 着 社会 、 经 济 的 发 展 。 大 数据 就 像 是 推动 技术 和 商业 发 展 的 燃料 ， 能 让 服务 商 
更 了 解 用 户 需求 ， 让 用 户 更 轻松 地 获得 自己 喜欢 的 商品 和 服务 ， 而 云 计算 提供 了 各 种 应 用 和 服务 运营 的 基础 。ABC (Al、Big Data、Cloud Computing) 三 位 一 体 驱动 着 “互联 网 物理 化 ”的 快速 变革 ,将 
数字 世界 的 互联 网 技术 、 商 业 模式 又 送 回 到 物理 世界 ， 改 变 未 来 社会 。 


在 2016 年 的 百度 云 智 峰会 上 ， 我 提出 了 ABC 三 位 一 体 智 能 云 的 概念 。ABC 智 能 云 将 成 为 行业 智能 转型 的 载体 。 有 别 于 传统 的 云 ，ABC 智 能 云 不 仪 能 提供 大 规模 的 计算 资源 ， 更 可 以 将 行业 数据 转换 为 知 
识 ， 特别 是 不 同行 业 的 知识 ， 如 工业 、 能 源 、 金 融 、 媒 体 等 。 随 着 云 上 数据 的 不 断 聚 集 ，ABC 智 能 云 将 提供 越 来 越 多 的 知识 ， 进 而 为 行业 提供 分 析 、 预 测 、 自 动 化 等 Al 能 力 ， 帮 助 传统 行业 进行 改造 ， 大 幅 
提升 其 生产 力 。Al 甚 至 可 以 建立 一 系列 新 的 产品 、 服 务 ， 如 智能 家 居 、 无 人 车 等 。Al 的 商业 化 途径 是 通过 数据 加 算法 、 软 件 与 专用 硬件 这 样 ABC 三 位 一 体 的 智能 云 来 实现 的 ， 从 而 实现 用 户 价 值 并 产生 商业 
价值 ， 这 样 更 多 的 数据 和 更 大 的 价值 将 进入 创新 循环 阶段 ， 而 且 创 新 速度 将 越 来 越 快 。 


发 展 Al 需 要 开放 的 生态 和 交叉 领域 的 人 才 


人 工 智能 是 第 四 次 工业 革命 的 核心 驱动 力 ， 是 中 国 历史 性 的 机 遇 。 此 轮 人 工 智 能 革命 中 ， 我 国 与 领先 国家 几乎 同时 起 步 ， 并 且 拥 有 培育 人 工 智能 发 展 的 最 佳 土壤 。 一 方面 ， 我 国有 良好 的 政策 环境 ， 在 
2017 年 十 二 届 全 国人 大 五 次 会 议 上 ，“ 人 工 智 能 ”这 一 表述 首次 出 现在 政府 工作 报告 中 。2017 年 7 月 ， 国 务 院 印尼 了 《新 一 代 人 工 智能 发 展 规划 》， 提 出 了 我 国 新 一 代 人 工 智能 发 展 的 指导 思想 、 战 略 目 
标 、 重 点 任务 和 保障 措施 。《 规 划 》 提 出 ， 到 2030 年 ， 中 国 成 为 世界 主要 人 工 智 能 创新 中 心 ， 人 工 智 能 核心 产业 规模 超过 1 万 亿 元 ， 带 动 相关 产业 规模 超过 10 万 亿 元 。 另 一 方面 ， 在 人 才 储 备 方面 ， 人 工 智 
能 领域 的 华人 科学 家 人 才 济 济 。 虽 然 从 突破 性 科研 贡献 的 数量 和 质量 ， 以 及 科研 成 果 的 影响 力 来 看 ， 中 国 与 美国 还 有 差距 ， 但 是 在 通用 技术 方面 ， 中 国 在 计算 机 视觉 和 语音 识别 等 领域 都 达到 了 世界 一 流水 
平 。 中 国企 业 也 正在 从 应 用 驱动 型 创新 向 技术 驱动 型 创新 转移 。 


人 工 智能 需要 数学 基础 好 的 人 才 ， 而 中 国学 生 有 非常 强 的 数理 基础 ， 中 国人 工 智 能 专业 博士 生 约 有 3 万 人 人。 人工 智能 时 代 ， 对 人 才 的 要 求 是 做 “三 好 学 生 ” 一 一 数学 好 、 编 程 好 、 态 度 好 。 首 先 ， 是 数 
学 好 ， 人 工 智 能 技术 的 研发 需要 很 深厚 的 数学 功底 ， 线 性 代数 、 概 率 论 、 离 散 数 学 、 模 型 优化 等 都 需要 有 深厚 的 数学 专业 积累 ; 其 次 ， 是 编程 好 ， 人 工 智能 技术 的 落地 实现 ， 乃 至 形成 商业 化 产品 ， 需 要 有 
很 强 的 工程 开发 能 力 ， 将 理论 实现 和 落地 ; 最 后 ， 是 态度 好 ， 我 们 处 在 一 个 快速 变化 的 时 代 ， 新 技术 不 断 涌 现 ， 社 会 需求 和 知识 更 新 更 是 瞬息 万 变 ， 技 术 人 才 需 要 主动 学 习 、 协 调和 整合 资源 ， 从 而 达成 目 
标 ， 和 团队 及 项 目 共同 成 长 。Machine is learning，you must keep learning。 每 天 都 要 学 习 ， 机 器 在 学 习 ， 你 必须 要 学 得 更 快 ， 才 不 会 被 机 器 淘汰 ， 包 括 做 交叉 学 科 的 研究 。 

作为 最 时 深耕 人 工 智能 的 科技 公司 之 一 ， 百 度 于 2016 年 将 曾 两 获 公司 最 高 奖 的 深度 学 习 平台 PaddlePaddle (Parallel Distributed Deep Learning) 开源 至 GitHub 社 区 ， 方 便 更 为 广泛 的 技术 人 员 加 入 
到 人 工 智能 领域 。 该 平台 可 实现 亿 万 级 别 海量 数据 的 高 性 能 计算 ， 其 主要 特点 是 训练 算法 高 度 优 化 ， 并 充分 利用 了 GPU 和 FPGA 等 异 构 计算 资源 加 速 运算 ， 支 持 大 规模 数据 量 的 分 布 式 训练 ， 是 研发 人 工 智 
能 基础 技术 的 基础 。PaddlePaddle 广 泛 应 用 于 百度 自动 驾驶 、 图 像 识别 、 语 音 、 自 然 语 言 理 解 等 领域 。 

PaddlePaddle 的 开源 大 幅 提高 了 人 工 智能 的 开发 速度 ， 让 深度 学 习 变 得 简单 、 快 速 。 北 京 工 业 大 学 的 学 生 就 曾 利用 PaddlePaddle 平 台 为 平谷 的 桃 农 制造 了 一 台 智 能 桃子 分 拣 机 ， 可 以 根据 桃子 的 颜 
色 、 大 小 、 光 泽 等 诸多 特征 实现 智能 分 拣 ， 分 桃 准确 率 达 90% 以 上 ， 解 放 了 人 力 ， 提 高 了 生产 效率 。 

人 工 智 能 是 一 项 工具 ， 要 更 好 地 为 人 所 用 ， 本 书 为 我 们 开启 了 一 扇 走 入 人 工 智能 世界 的 大 门 ， 帮 助 大 家 深入 浅 出 地 了 解 百度 的 深度 学 习 开 源 平台 。 站 在 巨人 的 肩膀 上 ， 人 能 看 得 更 远 ! 


百度 公司 总 城 


张亚勤 博士 


人 工 智能 (Al) 前 景 无 量 已 经 成 为 业界 共识 ， 国 内 外 很 多 企业 都 聚集 了 各 种 资源 大 力 发 展 人 工 智能 。 人 工 智能 并 不 是 一 个 新 生 的 名 词 ， 在 数 十 年 的 发 展 历程 中 ， 像 “深度 学 习 ” 这 样 在 学 术 界 和 工业 界 
皆 具 颠覆 性 的 技术 可 谓 十 年 难 遇 。 作 为 国内 人 工 智 能 领域 的 领头 羊 ， 百 度 在 Al 领 域 早已 深耕 多 年 ， 特 别 是 在 深度 学 习 领 域 建树 颇 丰 。 百 度 通过 应 用 深度 学 习 技 术 ， 使 其 在 语音 、 视 觉 、 文 本 、 无 人 驾驶 等 各 


领域 都 处 于 领先 位 置 。 百 度 着 力 打造 大 Al 生态 ， 倾 其 全 力 推动 中 国 Al 产业 大 力 发 展 。2016 年 ， 百 度 开 源 了 其 内 部 使 用 的 深度 学 习 框架 PaddlePaddle。 


深度 学 习 算 法 十 分 强大 ， 但 深入 理解 和 灵活 运用 深度 学 习 算法 并 不 是 一 件 容易 的 事情 ， 尤 其 是 复杂 的 数学 模型 和 计算 过 程 让 不 人 少 同学 刚 入 门 就 放弃 了 。 现 在 市 面 上 有 不 少 科普 型 的 书 ， 主 要 作用 是 从 宏 
观 上 描述 深度 学 习 的 发 展 和 用 途 ， 没 有 对 细节 的 描述 ， 只 起 到 了 提 振 读者 信心 的 作用 。 同 时 ， 也 不 乏 学 界 大 牛 的 全 而 难 的 “大 部 头 ” 著 作 ， 但 是 其 中 帮助 初学 者 入 门 深度 学 习 的 内 容 并 不 多 。 本 书 针 对 此 现 
状 立足 于 PaddlePaddle 框 架 ， 从 算法 到 应 用 由 浅 入 深 地 带领 读者 一 步 一 步 进 入 Al 技术 世界 。 


本 书 从 实战 的 角度 出 发 ， 旨 人 在 帮 助 读 者 掌握 满足 工业 需求 的 实际 技能 。 在 真实 工业 开发 中 框架 是 必 不 可 少 的 ， 现 在 市 面 上 框架 很 多 且 各 具 特 色 ， 其 中 PaddlePaddle 因 为 其 具有 上 手 容易 、 运 行 效率 高 、 
支持 私有 云 等 优势 ， 受 到 越 来 越 多 的 公司 和 个 人 的 青睐 。 虽 然 开 发 者 对 PaddlePaddle 表 现 出 了 浓厚 的 兴趣 ， 可 惜 的 是 市 面 上 还 没有 一 本 关于 PaddlePaddle 的 书 。 为 了 让 更 多 的 开发 者 享受 到 深度 学 习 带 来 
的 福利 ， 于 是 由 百度 发 起 ， 特 邀 北 航 参 与 ， 两 家 精诚 合作 联 祷 打造 了 本 书 。 


本 书 采用 由 简 入 繁 的 原则 撰写 而 成 。 我 们 希望 本 书 能 成 为 一 名 能 带领 读者 领略 PaddlePaddle 精 妙 的 精神 导游 。 从 较为 简单 的 线性 回归 、 风 辑 回归 到 较为 复杂 的 RNN 数 字 识 别 、 个 性 化 推荐 、 云 上 部 署 
等 ， 本 书 结合 若干 实例 ， 系 统 地 介绍 了 PaddlePaddle 的 使 用 特点 。 教 会 读者 如 何 使 用 框架 就 像 教会 了 读者 一 套 外 功 产 法。 然而 本 书 不 仅 关 注 框架 本 身 的 细节 用 法 ， 还 非常 注重 基础 知识 和 理论 ， 目 的 是 教会 
读者 内 功 心 法 。 书 中 既 详细 描述 了 神经 网 络 的 各 个 细节 ， 也 深入 讲解 了 算法 性 能 优化 的 思路 和 技巧 ， 则 在 帮助 读者 深入 理解 深度 学 习 的 精髓 。 


本 书 共 分 为 10 章 ， 每 一 章 都 包含 理论 介绍 和 对 应 的 代码 实现 。 除 了 第 1 章 讲述 主要 的 数学 基础 外 ， 其 余 各 章 都 有 PaddlePaddle 的 代码 实现 。 

第 1 章 介绍 数学 基础 和 Python 库 的 使 用 。 

第 2 章 回顾 神经 网 络 的 发 展 历程 和 机 器 学 习 的 基本 概念 ， 使 用 线性 回归 作为 PaddlePaddle 的 入 门 示例 。 

第 3 章 以 逻辑 回归 为 主线 介绍 单个 神经 元 的 工作 原理 ， 分 别 使 用 numpy 库 和 PaddlePaddle 实 现 逻 辑 回归 模型 的 猫 脸 分 类 。 

第 4 章 开始 正式 介绍 神经 网 络 。 以 双 层 的 网 络 为 例 深入 讲解 BP 算法 的 计算 过 程 ， 分 别 用 numpy 库 和 PaddlePaddle 实 现 “ 花 ”的 点 集 分 类 问题 。 

第 5 章 介绍 深度 神经 网 络 的 相关 知识 ， 总 结 神经 网 络 的 核心 算法 运算 过 程 。 然 后 使 用 深度 网 络 再 次 分 别 使 用 numpy 库 和 PaddlePaddle 实 现 猫 脸 分 类 。 

第 6 章 以 图 像 分 类 为 切入 点 深入 讲解 卷 积 神经 网 络 的 相关 细节 ， 同 时 介绍 几 种 经 典 的 网 络 模型 。 接 着 介绍 用 PaddlePaddle 实 现 基 于 MNIST 数 据 集 的 手写 数字 的 识别 。 


第 7 章 介绍 个 性 化 推荐 系统 的 算法 ， 包 括 基 于 传统 机 器 学 习 的 推荐 方法 和 基于 深度 学 习 的 推荐 方法 ， 其 中 重点 介绍 深度 学 习 的 融合 推荐 系统 。 同 时 介绍 使 用 PaddlePaddle 在 ml-1m 数 据 集 上 完成 推荐 系 
统 的 具体 实现 。 


第 8 章 以 个 性 化 推荐 系统 为 例 ， 详 细 讲 解 PaddlePaddle Cloud 的 使 用 方法 ,介绍 在 云 上 如 何 创建 、 配 置 集群 ， 如 何 提交 单 节点 任务 等 ， 并 实现 基于 PaddlePaddle Cloud 搭 建 分 布 式 深度 学 习 推 荐 网 络 


模型 。 


第 9 章 介 绍 PaddlePaddle 的 又 一 个 应 用 场景 ， 即 广告 点 击 通过 率 预 估 (CTR) ， 重 点 介绍 CTR 的 基本 过 程 和 常见 模型 ， 然 后 基于 Kaggle 数 据 集 网 站 的 Avazu 数 据 集 ， 使 用 PaddlePaddle 实 现 训练 和 预测 


的 整个 过 程 。 
第 10 章 系统 介绍 算法 优化 的 思路 和 方法 。 从 深度 学 习 系 统 的 实践 流程 开始 ， 介 绍 评估 和 调 优 策略 等 重要 概念 和 思想 ， 并 结合 实例 给 出 调 优 的 具体 效果 。 
本 书 适合 的 读者 主要 包含 : 
. 对 PaddlePaddle 框 架 感 兴趣 的 开发 者 ; 
希望 学 习 深度 学 习 的 在 校 大 学 生 和 在 职 的 程序 员 ; 
. 从 事 深 度 学 习 教 学 工作 的 一 线 教师 ; 
. 希望 深入 理解 深度 学 习 的 产品 经 理 。 


阅读 本 书 最 好 具备 以 下 要 求 : 至 少 具有 高 中 以 上 的 数学 基础 ， 具 有 基本 的 编程 能 力 (拥有 Python 编程 经 验 更 好 ) 。 如 果 读 者 具有 机 器 学 习 的 相关 经 验 ， 那 么 学 习 起 来 会 更 加 轻松 。 


致谢 


本 书 谨 献 给 PaddlePaddle 社 区 的 开发 者 和 生态 用 户 们 ， 正 是 因为 你 们 的 热忱 和 积极 贡献 ， 才 使 得 PaddlePaddle 深 度 学 习 框 架 得 以 不 断 演进 。 

诚挚 感谢 百度 技术 委员 会 理事 长 、 深 度 学 习 技 术 及 应 用 国家 工程 实验 室 (DLNEL) 秘书 长 陈 尚 义 先生 ， 他 精心 组 织 和 策划 了 本 书 ， 可 以 说 没有 他 的 推动 和 支持 ， 就 没有 本 书 的 问世 。 
感谢 百度 总 裁 张亚勤 在 百 忙 之 中 为 本 书 作 序 ， 感 澳 百 度 副 总 裁 及 DLNEL 理 事 长 和 主任 王 海 峰 ， 因 为 有 了 他 们 的 肯定 和 支持 ， 才 使 得 DLNEL 输 出 的 首 个 实战 教程 顺利 出 版 。 

感谢 DLNEL 副 主任 李 莹 和 百度 技术 生态 部 总 经 理喻 友 平 对 本 书 涉及 的 技术 内 容 的 指导 ; 感谢 PaddlePaddle 团 队 王 靖 、 骆 涛 、 曹 莹 、 冉 印 、 张 超 、 杜 哲 等 专家 对 教程 的 审阅 和 修订 。 


感谢 所 有 关心 PaddlePaddle 的 热心 开发 者 们 ， 限 于 篇 幅 ， 在 此 不 再 一 一 列举 。 


第 1 章 ”数学 基础 与 Python 库 


本 章 介 绍 了 读者 在 学 习 深 度 学 习 之 前 ， 需 要 掌握 的 一 些 数学 知识 和 Python 编程 知识 。 由 于 书 中 编写 的 代码 都 是 基于 Python 实现 的 ， 文 中 首先 介绍 了 Python 特点 及 研究 人 员 选 取 Python 语 言 的 原因 。 然 
后 介绍 了 在 学 习 深 度 学 习 过 程 中 最 为 常用 的 两 个 Python 基础 库 一 一 numpy 库 和 matplotlib 库 。 最 后 归纳 了 在 学 习 深 度 学 习 中 用 到 的 一 些 数学 模型 用 Python 实现 。 


学 完 本 章 ， 和 希望 读者 能 够 掌握 以 下 知识 点 : 


(1) 理解 深度 学 习 涉 及 的 基本 数学 知识 ， 对 线性 代数 和 微 积 分 基础 知识 能 够 有 比较 扎实 的 掌握 。 


(2) 掌握 numpy 库 和 matplotlib 库 的 基本 应 用 。 


(3) 读者 能 进行 数学 模型 与 编程 实现 的 综合 实验 ， 实 现 算法 思维 和 动手 实现 的 融会 贯通 。 


1.1 ”Python 是 进行 人 工 智能 编程 的 主要 语言 


当前 ， 无 论 工 业界 还 是 学 术 界 ， 进 行人 工 智 能 (Al) 编程 的 主流 语言 就 是 Python。Python 在 1989 年 由 荷兰 人 Guido van Rossum 发 明 ， 从 发 明之 日 起 就 由 社区 维护 不 断 壮 大 。 


Python 是 一 门 解释 型 的 高 级 语言 ， 其 设计 简洁 优雅 ， 对 程序 员 友好 ， 开 发 效率 高 。Python 专 注 于 缩短 开发 周期 ， 让 开发 者 尽力 避免 考虑 底层 细节 ， 把 宝贵 的 精力 更 多 投入 到 功能 开发 本 身上 来 。 
Python 官方 对 Python 的 评价 : “Python 追求 的 是 找到 最 好 的 解决 方案 ， 相 比 之 下 ， 其 他 语言 追求 的 是 多 种 解决 方案 。” 多 年 的 积淀 让 Python 形成 了 强大 的 生态 。 由 于 Python 非常 容易 扩展 ， 在 各 个 领域 
的 开发 者 不 断 贡 献 代 码 的 情况 下 ， 逐 渐 形 成 了 各 种 各 样 的 库 。 特 别 是 人 工 智 能 开发 常常 用 到 的 numpy、scipy、matplotlib 等 库 。 


开发 者 除了 可 以 调用 使 用 Python 语言 编写 的 库 ， 还 能 通过 各 种 方式 轻松 地 调用 其 他 语言 编写 的 模块 。 一 种 常见 的 方式 是 : 底层 复杂 上 且 对 效率 要 求 高 的 模块 用 C/C+ + 实现 ， 项 层 调 用 的 API 用 Python 语 
言 封装 ， 这 样 通过 简单 的 语法 实现 顶层 逻辑 。 因 为 这 样 的 特性 ，Python 又 被 称 为 “胶水 语言 ”。 这 种 特性 的 好 处 显而易见 ， 一 方面 开发 者 可 以 更 多 地 专注 于 思考 问题 的 逻辑 而 不 是 把 时 间 用 在 编程 上 ， 另 一 
方面 由 于 大 量 使 用 C/C++ 跟 它 配合 ， 使 得 采用 Python 开发 的 真实 程序 运行 起 来 非常 快 。 尤 其 对 于 做 人 工 智 能 的 研发 人 员 ， 这 种 方式 非常 理想 。 现 在 主流 的 深度 学 习 框 架 都 直接 用 Python 语言 或 者 提供 了 
Python 接口 。 由 上 特 度 发 起 的 深度 学 习 框 架 PaddlePaddle 的 工作 语言 就 是 Python。 


Python 能 成 为 人 工 智能 的 主流 语言 的 一 个 重要 原因 就 是 其 语法 简单 、 容 易 掌 握 。Python 已 成 为 Web 开 发 、 游 戏 脚本 、 计 算 机 视觉 、 物 联网 管理 和 机 器 人 开发 的 主流 语言 之 一 。 这 些 行业 的 从 业 人 员 都 
是 专业 的 程序 员 ， 软 件 开发 是 他 们 的 本 职工 作 。 但 是 在 “新 兴 ” 领 域 越 来 越 多 的 人 开始 了 解 和 使 用 人 工 智 能 技术 ， 越 来 越 多 的 人 将 成 为 人 工 智能 工程 师 ， 成 为 应 用 工程 师 和 人 工 智能 的 用 户 。Python 由 于 入 
门 简单 成 为 目前 最 受 欢 迎 的 人 工 智能 工作 语言 。 


注意 bython 由 于 历史 原因 分 为 了 两 个 版 本 ，2.x 和 3.x， 因 为 PaddlePadqdle 目 前 只 支持 2.x 版 本 ， 未 来 有 计划 支持 3.x 版 本 ， 所 以 本 书 中 用 到 的 例子 都 是 在 Python 2.7 上 运行 和 测试 通过 的 ， 建 议 读者 也 使 用 2.x 
的 版 本 。 


Python 是 一 种 很 优美 的 编程 语言 。 希 望 读者 在 编写 Python 程序 的 时 候 ， 也 能 注重 把 代码 写 的 优雅 ， 易 读 性 和 可 维护 性 好 。 事 实 上 ，Python 的 作者 对 于 代码 优雅 有 明确 的 建议 ， 请 在 python console 下 
输入 import this， 能 看 到 被 称 为 “Python 之 禅 ” 的 要 求 。 下 面 是 中 英文 对 照 : 


补充 阅读 

Python 之 禅 (The Zen of Python) 
( 注 : 翻译 来 自 Python 官 方 中 文 社区 ) 

The Zen of Python, by Tim Peters 

Python 之 祥 ， 作 者 : Tim Peters 

Beautiful is better than ugly. 优 美 胜 于 丑陋 (Python 以 编写 优美 的 代码 为 目标 ) 

Explicit is better than implicit. 明 了 胜 于 蜀 涩 〈 优 美的 代码 应 当 是 明了 的 ， 命 名 规范 ， 风 格 相似 ) 

Simple is better than complex. 简 洁 胜 于 复杂 (优美 的 代码 应 当 是 简洁 的 ， 不 要 有 复杂 的 内 部 实现 ) 

Complex is better than complicated. 复 杂 胜 于 凌乱 (如果 复 杂 不 可 避免 ， 那 代码 间 也 不 能 有 难 懂 的 关系 ， 要 保持 接口 简洁 ) 

Flat is better than nested. 扁 平 胜 于 识 套 (优美 的 代码 应 当 是 遍 平 的 ， 不 能 有 大多 的 歌 套 ) 

Sparse is better than dense. 间 隔 胜 于 紧 姿 《优美 的 代码 有 适当 的 间隔 ， 不 要 奢望 一 行 代 码 解 决 问题 ) 

Readability counts. 可 读 性 很 重要 (优美 的 代码 是 可 读 性 很 高 的 ) 

Special cases aren”+ special enough to break the rules. 即 便 假 和 借 特 例 的 实用 性 之 名 ， 也 不 可 违背 这 些 规则 (这 些 规则 至 高 无 上 ) 

Although ptacticality beats putity. 

Ettots should hevet pass silently. 

Unless explicitly silenced. 

不 要 包容 所 有 和 错误， 除非 你 确定 需要 这 样 做 (精准 地 捕获 异常 ， 不 写 except: pass 风 格 的 代码 ) 

In the face of ambiguity, refuse the temptation to guess. 

当 存 在 多 种 可 能 ， 不 要 尝试 去 猜测 

There should be one--and preferably only one--obvious way to do it. 

而 是 尽量 找 一 种 ， 最 好 是 唯一 一 种 明显 的 解决 方案 (如 果 不 确定 ， 就 用 穷 举 法 ) 

Although that way may not be obvious at first unless you’” re Dutch. 

虽然 这 并 不 容易 ， 因 为 你 不 是 Python 之 父 〈 这 里 的 Dutch 是 指 Guido， 他 开创 了 Python 语言 ) 

Now is bettet than nevetr. 

做 也 许 好 过 不 做 

Although nevet is often bettet than*right*+now. 


但 不 假 思 索 就 动手 还 不 如 不 做 (动手 之 前 要 细 思 量 ) 


If the implementation is hard to explain ， it”sabad idea. 

If the implementation is easy to explain, it may be a good idea. 

如 果 你 无 法 向 人 描述 你 的 方案 ， 那 肯定 不 是 一 个 好 方案 ; 如 果 方 案 容易 描述 ， 那 也 许 是 个 好 方案 (方案 测评 标准 ) 
Namespaces ate one honking great idea--let” s do mote of those! 


命名 空间 是 一 种 绝妙 的 理念 ， 我 们 应 当 多 加 利用 (倡导 与 号 召 ) 


1.2 数学 基础 


机 器 学 习 及 深度 学 习 的 理论 是 建立 在 数学 基础 上 的 。 本 节 主 要 介绍 了 线性 代数 和 微 积 分 的 基础 知识 。 本 书 的 主题 是 深度 学 习 及 PaddlePaddle 框 架 的 使 用 ， 所 以 数学 部 分 只 简明 扼要 地 介绍 与 主题 紧密 相 
关 的 内 容 。 如 果 读 者 已 经 熟悉 相关 知识 ， 可 以 跳 过 本 节 。 


1.2.1 线性 代数 基础 


线性 代数 对 于 机 器 学 习 及 深度 学 习 极为 重要 。 机 器 学 习 的 基础 就 是 数据 ， 没 有 大 量 的 数据 也 就 没有 了 机 器 学 习 。 数 据 中 蕴含 了 丰富 的 信息 ， 这 些 信 
I 
别 介 


息 可 以 通过 多 维 的 视角 来 看 待 ， 可 以 说 数据 就 是 很 多 
个 维度 的 信息 的 综合 体 。 如 果 要 存储 和 计算 这 些 数 据 就 需要 用 到 线性 代数 中 的 知识 ， 包 括 机 器 学 习 中 最 常用 到 的 向 量 、 答 阵 、 张 量 等 。 下 面 分 别 介绍 这 些 基 本 概念 


及 相关 的 常用 运算 。 


也 


1. 向 量 


在 线性 代数 中 ， 最 基本 的 概念 是 标量 (Scalar) 。 标 量 就 是 一 个 实数 。 比 标量 更 常用 的 一 个 概念 是 向 量 (Vector) 。 向 量 就 是 n 个 实数 组 成 的 有 序数 组 ， 称 为 n 维 向 量 (如 公式 1-1 所 示 ) 。 如 果 没有 特 
别 说 明 ， 一 个 n 维 向 量 一 般 表 示 一 个 列 向 量 。 向 量 符号 一 般 用 黑体 小 写字 母 a，b，<c 来 表示 。 这 个 有 序数 组 中 的 每 个 元 素 都 有 对 应 的 下 标 。 数 组 中 的 第 一 个 元 素 的 下 标 是 1， 第 二 个 元 素 的 下 标 是 2， 以 此 类 
推 。 通 常用 a1 表 示 第 一 个 元 素 ，a2 表 示 第 二 个 元 素 ，ai 表 示 第 i 个 元 素 。 数 组 中 的 每 一 个 元 素 被 称 为 一 个 分 量 。 多 个 向 量 可 以 组 成 一 个 矩阵 。 


a=| ( 1-1 ) 


号 


2. 和 矩阵 


和 矩阵 (Matrix) 是 线性 代数 中 应 用 非常 广泛 的 一 个 概念 。 矩 阵 比 向 量 更 加 复杂 ， 向 量 是 一 个 一 维 的 概念 而 德 阵 是 一 个 二 维 的 概念 。 一 个 矩阵 的 直观 认识 如 公式 1-2 所 示 。 式 中 和 矩 阵 由 m xn 个 元 素 组 成 ， 
这 些 元 素 被 组 织 成 m 行 和 n 列 。 本 书 中 矩阵 使 用 黑体 大 写字 母 表示 ， 例 如 A。 A 例如 第 一 行 第 一 列 的 元 素 为 a11。 


dds"d 


ln 


pi “21022 2 ( 1-2) 


嘲 二 
三 三 喇 三 


《1 L »***d 


ml] mn 


特别 的 ， 一 个 向 量 也 可 视 为 大 小 为 nx 1 的 矩阵， 如 公式 1-3 所 示 ， 既 是 一 个 nx 1 矩阵， 又 是 一 个 n 维 向 量 。 


(1-3) 


Ud 


单位 矩阵 (Identity Matrix) 是 一 种 特殊 的 矩阵 ， 其 主 对 角 线 (Leading Diagonal， 连 接 矩 阵 左上 角 和 右 下 角 的 连 线 ) 上 元 素 为 1， 其 余 元 素 为 0。n 阶 单位 和 矩阵 ln 是 一 个 nxn 的 方形 矩阵。 可 以 记 为 
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In=diag (1，1，.…，1) 。 
3. 向 量 的 运算 
在 机 器 学 习 及 深度 学 习 中 向 量 不 仅 用 来 存储 数据 ， 也 会 参与 操作 。 向 量 的 运算 主要 有 两 个 ， 一 个 是 向 量 的 加 减法 ， 一 个 是 向 量 的 点 乘 (内 积 ) 。 
向 量 的 加 减法 比较 容易 理解 。 无 论 是 加 法 还 是 减法 都 需要 参与 运算 的 两 个 向 量 的 长 度 相同 ， 其 运算 规则 是 对 应 位 置 的 元 素 求 和 或 者 求 差 。 例 如 ， 向 量 a=[a1，a2，:…an] 和 向 量 b=[b1，b2，…bn] 都 是 长 
度 为 n 的 向 量 ， 求 和 就 是 生成 向 量 c=[c1，c2，…cn]，c 中 的 每 一 个 元 素 都 是 由 a 和 b 对 应 位 置 的 元 素 求 和 得 到 ci=ai+bi。 
向 量 的 点 乘 相对 复杂 一 些 ， 两 个 长 度 相同 的 向 量 才能 做 点 乘 。 假 设 存 在 两 个 长 度 相 同 都 为 n 的 向 量 a=[a1，a2，…an 和 b=[b1，b2，…bnl， 它 们 的 点 乘 结果 为 一 个 标量 c。 < 的 值 为 向 量 a 和 向 量 b 对 应 位 


n 
= > ab, 
i 


置 的 元 素 的 乘积 求 和 : c=a1xb1+a2xb2+..….+anxbn。 向 量 点 乘 记 作 c=ab 或 记 作 c=a-b。 点 乘 使 用 公式 表示 ， 即 。 通 过 对 公式 的 观察 会 发 现 点 乘 符合 交换 律 ， 即 ab=ba。 


4. 和 矩阵 的 运算 


相 比 于 普通 的 算术 运算 ， 德 阵 运算 更 加 复杂 。 最 常见 的 矩阵 运算 主要 有 加 、 减 、 乘 、 转 置 ， 而 乘 又 分 为 点 乘 和 元 素 乘 。 和 矩阵 的 加 减 运算 是 相对 简单 的 运算 。 加 减 运算 涉及 两 个 矩阵 ， 运 算 的 结果 生成 第 
三 个 矩阵。 加 减 运算 要 求 运算 输入 的 两 个 矩阵 的 规模 相同 〈 即 ， 两 个 矩阵 都 为 m 行 xn 列 ) ， 其 规则 就 是 对 应 位 置 的 元 素 加 和 减 。 例 如 ， 假 设 A 和 B 都 是 m 行 n 列 的 和 矩阵， 则 A 和 B 的 加 和 减 分 别 为 : 


(7 一 4 (4 一 D) 关 4 一 2 (1-4 ) 


和 矩 阵 乘 法 是 矩阵 运算 中 最 重要 的 操作 之 一 。 德 阵 的 乘法 有 两 种 运算 ， 一 种 是 点 乘 (Matrix Product) ， 一 种 是 元 素 乘 (Element-Wise Product) 。 下 面 分 别 介 


点 乘 运算 是 一 个 常用 矩阵 操作 。 两 个 矩阵 A 和 B 经 过 点 乘 运算 产生 和 矩 阵 C。 氮 乘 运算 的 前 提 条 件 就 是 和 矩阵 A 的 列 数 必须 和 和 矩 阵 B 的 行 数 相等 。 如 果 和 矩阵 A 的 形状 是 mxn， 和 矩阵 B 的 形状 是 nxP， 那 么 矩阵 C 的 
形状 是 mxp。 点 乘 运算 可 以 书写 作 C=A.B， 通 常 更 常用 的 写法 是 C=AB。 点 乘 运算 的 规则 稍 复杂 ，A 中 的 第 行 点 乘 B 中 的 第 j 列 得 到 一 个 标量 ， 这 个 标量 就 是 C 中 的 第 i 行 第 | 个 元 素 。 例 如 ，A 的 第 一 行 点 乘 B 的 
第 一 列 得 到 C 中 的 一 个 元 素 C11; A 的 第 三 行 乘 以 B 的 第 二 列 得 到 C 的 一 个 元 素 C32。 其 公式 表示 如 下 : 


Ci =(4B)， = AB, (1-5 ) 


注意 ”点 乘 运算 不 具备 交换 律 ， 即 AB 关 BA。 甚 至 很 多 时 候 AB 可 以 计算 ， 但 是 BA 不 存在 ， 因 为 点 乘 必须 符合 行 数 和 列 数 的 对 应 关系 。 


除了 和 矩阵 的 点 乘 操作 ， 机 器 学 习 和 深度 学 习 会 使 用 到 的 另 一 个 运算 是 元 素 乘 。 元 素 乘 又 称 元 素 积 、 元 素 对 应 乘积 。 元 素 乘 的 运算 条 件 更 加 严格 一 些 ， 要 求 参 与 运算 的 两 个 矩阵 的 规模 一 样 ( 即 ， 都 为 
mxn 的 和 矩阵) 。 两 个 mn xn 的 矩阵 A 和 B， 经 过 元 素 乘 后 其 运算 结果 为 C， 一 般 记 为 C=A@B。 与 点 乘 相同 元 素 乘 运算 结果 也 是 一 个 和 矩阵 ， 只 不 过 运算 规则 更 加 简单 ， 只 是 对 应 位 置 的 元 素 相 乘 即 可 。 元 素 乘 的 
公式 为 Cij=AijOBi。 例如， 一 个 2x3 规 模 的 元 素 乘 为 C2*3=A2*3@OB2*3， 运 算 过 程 如 下 所 示 : 


Ul Li Ui3 bi 0 0 aibi ai2b, 03013 Cl11 C12 C13 (1 6) 


ClL21 4 ty3 Di Ds by Grnby WD taDys C21 C22 (23 


矩阵 的 转 置 (transposition) 是 一 个 很 容易 理解 的 运算 。 转 置 就 是 将 原来 的 行 元 素 变 成 列 元 素 。 假 设 矩 阵 A 是 mxn 的 矩阵 ， 经 过 转 置 后 的 矩阵 变 为 nxm， 记 作 A. 。 从 公式 的 角度 看 (AT) j=Aij。 下 面 
给 出 一 个 具体 的 例子 。 


= C11 C21 
11 U2 13 
A,,, = 转 轩 运 息 (4 ),*3= C12 C2 (1-7) 
021 0 023 | 转 置 运 四 
13 C23 


注意 ”矩阵 的 操作 将 在 介绍 gaumpy 时 介绍 ， 详 见 代 码 清 单 1-4。 


除了 数学 概念 上 的 运算 外 ， 计 算 机 深度 学 习 中 常常 会 用 到 向 量化 的 概念 。 向 量化 (Vectorization) 是 指 将 原本 需要 高 复杂 度 的 计算 过 程 化 为 低 复杂 度 的 向 量 乘积 的 过 程 。 深 度 学 习 过 程 常常 都 面临 大 量 
的 向 量 和 和 矩阵 运算 ， 如 果 采 用 传统 的 计算 方法 那么 这 些 运算 将 消耗 大 量 时 间 ， 而 向 量化 可 以 有 效 降低 其 计算 耗 时 。 


注意 ”这 一 部 分 将 在 numpy 章 节 直 观 展现 ， 详 见 代 码 清 单 1-8。 


假设 程序 员 面 对 一 个 需求 : 求 两 个 向 量 a 和 b 的 点 乘 。 他 可 以 选择 的 一 个 操作 方法 是 把 向 量 视 为 多 个 元 素 的 有 序数 组 ， 对 a 和 b 中 的 每 一 个 分 量 做 一 次 乘积 运算 ， 最 后 将 乘积 结果 求 和 即 * 文 “%. 而 他 可 


以 选择 的 另 一 个 操作 方法 是 把 向 量 视 作 一 个 整体 ， 直 接 调 用 Python 语言 现成 的 库 函 数 完成 两 个 向 量 的 乘积 。 从 数学 角度 看 两 个 操作 的 复杂 度 是 相同 的 ， 但 是 从 程序 的 角度 看 ，Python 库 内 部 对 向 量 操作 做 
了 算法 甚至 硬件 级 别 的 优化 ， 会 使 得 计算 机 运算 更 加 迅速 。 所 以 ， 向 量化 是 深度 学 习 过 程 可 以 提速 的 一 大 法 宝 。 


5. 向 量 的 范 数 
在 机 器 学 习 中 衡量 一 个 向 量 大 小 的 时 候 会 用 到 范 数 (Norm) 的 概念 。 范 数 可 以 理解 为 一 个 将 向 量 映射 到 非 负 实数 的 函数 。 通 俗 来 讲 范 数 表示 的 是 向 量 的 “长 度 ”。 形 式 上 范 数 的 定义 如 下 : 


| 


| (1-8 ) 


| 
< 


pe 
观察 范 数 的 定义 很 容易 发 现 ， 范 数 事实 上 和 p 的 取 值 是 有 关系 的 ， 所 以 范 数 的 数学 符号 是 Lp。 
在 机 器 学 习 和 深度 学 习 领 域 最 常用 到 的 两 个 范 数 是 L1 范 数 和 L2 范 数 。 对 于 绝 大 多 数 读 者 来 说 ， 最 熟悉 的 就 是 p=2 的 情况 。L2 范 数 (L2Norm) 也 被 称 为 欧 几 里 得 范 数 ， 它 表示 从 原点 出 发 到 向 量 x 确定 的 
点 的 欧 几 里 得 距离 。 向 量 的 L2 范 数 也 被 称 作 向 量 的 模 。L2 在 机 器 学 习 和 深度 学 习 中 出 现 十 分 频繁 ,为 了 计算 和 使 用 方便 ， 常 常会 对 L2 范 数 做 平方 运算 。 平 方 L2 范 数 对 每 一 个 x 的 导数 只 取决 于 对 应 的 元 素 ， 而 
L2 范 数 对 每 个 元 素 的 导数 却 和 整个 向 量 相 关 。 但 是 平方 L2 范 数 的 一 个 缺点 是 它 在 原点 附近 增长 得 十 分 缓慢 。 在 某 些 机 器 学 习 和 深度 学 习 应 用 中 ， 区 分 值 为 零 的 元 素 和 非 零 但 值 很 小 的 元 素 是 很 重要 的 。 在 这 
些 情况 下 ， 转 而 使 用 在 各 个 位 置 斜率 相同 ， 同 时 保持 简单 的 数学 形式 的 函数 : L1 范 数 。 当 机 器 学 习 和 深度 学 习 问 题 中 零 和 非 零 元 素 之 间 的 差异 非常 重要 时 ， 通 常会 使 用 L1 范 数 。L1 范 数 即 为 向 量 中 各 个 元 素 
绝对 值 的 和 。 每 当 x 中 某 个 元 素 从 0 增加 ， 对 应 的 L1 范 数 也 会 增加 e。 


Lp 范 数 用 来 度量 向 量 的 大 小 ， 相 应 的 度量 矩阵 的 大 小 可 以 使 用 Frobenius 范 数 (Frobenius Norm) 。 其 类 似 于 L2 范 数 ， 可 以 将 其 理解 为 L2 范 数 在 和 矩 阵 上 的 推广 。 公 式 如 下 : 


] 


和 =| | ‘19) 


i,j 


1.2.2 微 积 分 基础 
机 器 学 习 和 深度 学 习 除了 需要 线性 代数 的 基础 ， 还 需要 一 定 的 微 积 分 基础 。 在 机 器 学 习 和 深度 学 习 计 算 过 程 中 ， 逆 向 传播 算法 (第 4 章 着 重 讲述 ) 需要 用 到 偏 导数 求解 的 知识 ， 而 梯度 下 降 算 法 (第 3 章 


着 重 讲述 ) 需要 理解 梯度 的 概念 。 


1. 导 数 
首先 介绍 导数 的 相关 知识 。 导 数 (Derivative) 直观 理解 是 反应 瞬时 变化 率 的 量 。 如 图 1-1 所 示 。 考 虑 一 个 实际 问题 ， 纵 坐标 是 车 辆 位 移 ， 横 坐标 是 时 间 ， 如 何 知道 t1 时 刻 车 辆 的 瞬时 速度 呢 ? 


昌 想 是 用 平均 速度 去 通 近 瞬时 速度 。 这 里 可 以 考虑 t1 和 t2，t1 在 前 ，t2 在 后 ， 它 们 之 间 有 一 定 的 时 间 间 隔 ， 这 个 时 间 间 隔 为 At。 在 这 段 时 间 间 隔 内 产生 的 位 移 为 As。 那 么 时 间 内 的 


As 
平均 速度 为 At。At 不 断 缩 小 ， 也 就 是 t2 不 断 靠 近 t1， 当 t2 与 t1 无 限 接近 几乎 重合 时 ， 便 可 以 视 作 t1 点 的 瞬时 速率 (如 图 1-1 所 示 ) 。 


图 1-1 ”斜率 示意 图 


导数 是 从 瞬时 速度 的 概念 中 类 比 抽象 出 来 的 。 将 瞬时 速率 拓展 到 更 一 般 的 情形 ， 人 在 更 广 的 函数 范围 内 ， 根 据 这 种 无 限 逼 近 的 思路 ， 知 道 任意 变量 在 一 点 处 的 变化 率 (斜率 ) ， 函 数 在 这 一 点 处 的 斜率 就 
是 导数 。 在 高 等 数学 中 更 为 严谨 的 定义 为 : 对 于 定义 域 和 值 域 都 是 实 域 的 图 数 y=f (x) ， 若 f(x) 在 点 x0 的 某 个 邻 域 Ax 内 ， 极 限 


TE fw +Ar) -fF() 
/ ( 中 = lim Ax 


存在 ， 则 称 函 数 y=f (x) 在 x0 处 可 导 ， 且 导数 为 f (xg) 。 


( 1-10 ) 


来 看 下 面 的 例子 ， 如 图 1-2 所 示 是 函数 y=4a 的 曲线 ， 当 a=3 时 ，y=12， 而 当 a 在 a 坐 标 轴 向 右 移动 很 小 的 一 段 距离 0.001 时 ，a=3.001，y=12.004。 


这 时 ， 定 义 a 发 生 的 变化 为 da，da=0.001， 定 义 y 发 生 的 变化 为 dyy，dy=0.004， 读 者 便 能 计算 得 到 这 一 小 段 变化 形成 的 图 中 三 角形 的 斜率 (slope) =4， 此 时 的 斜率 便 是 y=4a 在 a=3 处 的 导数 值 
f (3) =slope=4。 当 然 ， 这 里 的 0.001 只 是 说 明 a 的 变化 很 小 而 已 ， 实 际 上 da 是 一 个 无 限 趋 近 于 0 的 值 ， 远 比 0.001 要 小 。 类 似 的 ， 计 算 a= 5 时 的 导数 ， 也 能 用 上 述 方 
法 ,a=5, y=20,，a=5.001,，y=20.004， 从 而 dy=0.004，dx=0.001。 遂 数 y=f (a) =4a 在 a=5 处 的 导数 为 f (5) =slope=dy/da=4。 相 似 的 ， 其 他 形状 曲线 的 任意 一 点 的 导数 ， 也 能 用 类 似 的 方法 计算 得 
到 。 此 外 ， 读 者 也 许 会 发 现 ， 直 线 的 导数 在 任意 一 点 都 相同 ， 为 一 个 确定 的 值 。 


上 /2 3.001 
广 | 


-12 -10 -8 -6 -4 -2 /lo 234 6 8 10 12 


2 
-4 


, 
OO 
|| 


-60 


UU 


0.004 
0.001 
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图 1-2 导数 推导 计算 示意 图 


上 面 描 述 的 是 在 某 一 点 的 导数 概念 ， 接 下 来 将 这 个 概念 推广 开 来 。 若 函数 f (x) 在 其 定义 域内 包含 的 每 一 个 点 都 可 导 ， 那 么 也 可 以 说 函数 f (x) 在 这 个 区 间 内 可 导 。 这 样 定义 函数 f (x) 为 函数 f (X) 


CA 
9 导 国 数 ， 通 常 也 称 为 导数 。 函 数 f (x) 的 导数 f(x) 也 可 以 记 作 Vxf (x) ， x 去 赤 /0， 以 上 便 是 函数 与 变量 的 导数 的 基本 知识 。 


2. 偏 导数 


一 个 多 变量 的 函数 的 含 导 数 (Partial Derivative) ， 就 是 它 天 于 其 中 一 个 变量 的 导数 而 保持 其 他 变量 恒定 (相对 于 全 导数 ， 在 全 导数 中 所 有 变量 都 允许 变化 ) 。 简 单 来 说 ， 偏 导数 就 是 对 多 元 函数 求 其 


中 一 个 未 知 数 的 导数 ， 比 如 在 仿 x 和 y 的 函数 中 对 x 求 导 ， 此 时 是 将 另 一 个 未 知 数 y 看 成 是 常数 ， 相 当 于 未 知 数 只 是 x 求 导 ， 如 公式 1-11、1-12 所 示 : 


f(x,y)= ax + by +cexy 


Of (x,y) 


一 一 一 一 一 20x 十 C 
OX . 


此 时 被 称 为 函数 关于 x 的 偏 导数 ， 同 理 ， 函 数 关于 y 的 偏 导 数 为 
0 


of 
拓展 到 更 多 元 的 情况 ， 对 一 个 含有 多 个 未 知 数 的 函数 f 对 于 其 中 任意 一 个 变量 p 求 偏 导 时 ， 只 将 p 视 为 未 知 量 ， 其 余 未 知 数 视 为 常量 (注意 只 是 视 为 ) ， 记 作 名 。 


= 207 十 CX 


特别 的 ， 当 函数 f 中 本 身 只 含有 一 个 未 知 数 x 时 ，f 关 于 x 的 导数 也 就 是 { 关 于 x 的 偏 导 数 ， 即 


( 1-11 ) 


( 1-12 ) 


( 1-13 ) 


全 (1-14 ) 
dx Ox : 


读者 可 以 参考 图 1-3 所 示 的 例子 ，J 是 一 个 关于 a 和 b 的 函数 ，J=f (a, b) =3a+2b: 


d=1,b=2,Js=7 
a = 1.001,b=2,J=7.003 


d= 1,b=2,J=7 
2.001, /= 7.002 


| 
| 
|| 


图 1-3 偏 导 数 推导 计算 示意 图 


当 a 不 变 ，b 发 生变 化 的 时 候 ， 假 定 b 在 2 发 生变 化 ，a=1，b=2， 此 时 J=7。 而 当 b 增 加 0.001 时 ，a=1，b=2.001， 此 时 J=7.002。 类 比 于 前 一 小 节 推 导 导数 时 的 方法 ， 偏 导数 也 能 用 相似 的 方法 推导 得 
到 ,在 点 (1，2) 处 , 求 /关于 b 的 偏 导 数 ， 由 于 a 不 发 生变 化 ， 所 以 J 对 b 的 偏 导 数 。 用 类 似 的 方法 ， 读 者 也 能 求 得 在 点 (1，2) 处 ，J 对 a 的 偏 导 类 


3. 向 量 的 导数 
之 前 介绍 的 函数 都 是 关于 一 个 标量 的 函数 ， 例 如 f (x) =x， 在 这 样 的 函数 中 ， 变 量 本 身 是 一 个 数 。 但 是 在 机 器 学 习 和 深度 学 习 中 ， 有 时候 还 需要 对 向 量 求 导 ， 下 面 介绍 向 量 的 求 导 方法 。 

(1) 标量 对 向 量 求 导 

首先 介绍 维度 的 概念 。 对 于 向 量 而 言 ， ER > 量 的 个 数 。 对 于 函数 而 言 ， 这 样 由 数值 型 变量 构成 的 函数 也 称 为 标量 的 函数 。 现 有 向 量 X= [x1，x2，x3，.…，xp] 1， 这 样 函数 f (x) 

) al 


关于 向 量 X 的 导数 仍然 是 p 维 向 量 ， 导 数 向 量 中 第 i 个 元 素 的 值 为 。 也 即 函 数 对 向 量 求 导数 ， 其 结果 为 函数 对 向 量 的 各 个 分 量 求 偏 导 数 。 更 为 严谨 的 数学 定义 为 ， 对 于 一 个 p 维 向 量 xERP， 关 于 


标量 的 函数 y=f (x) =f (x1，x2，.…，xp) ER， 则 y 关 于 x 的 导数 为 
of (Xx) 
op OX 
f(x) | 
CA 一 eR’ ( 1-15 ) 


A 
| of (x) 
OX 


pp 
(2) 向 量 对 向 量 求 导 
当 函 数 中 是 关于 标量 的 函数 ， 这 样 {本 身 是 一 个 q 维 度 的 向 量 ， 现 有 向 量 X= [x1，X2，.…，Xp] “，p 与 q 不 相同 时 ， 函 数 f 对 于 向 量 X 求 导 ， 所 得 到 的 结果 是 一 个 pxq 的 矩阵 ， 其 中 第 i 行 第 j 列 的 元 素 为 


Sh 2 也 即 是 由 标量 的 函数 构成 的 向 量 f 对 于 向 量 X 求 导 ， 其 结果 为 一 个 矩阵 ， 和 矩阵 的 第 n 行 为 函数 向 量 f 中 每 一 个 函数 ， 对 x 求 偏 导 。 更 为 严谨 的 数学 定义 为 ， 对 于 一 个 p 维 向 量 xERP， 卫 


数 y=f= (f1，f2，.….，fq) ， 则 y 关 于 x 的 导数 为 : 


| 
NM 
Re 
Ty 
了 
em 


(1-16) 


4. 导 数 法 则 
(1) 加 减法 则 (Addition Rule) 


两 个 函数 的 和 (或 差 ) 的 导数 ， 等 于 两 个 函数 分 别 对 自 变 量 求 导 的 和 (或 差 ) 。 设 y=f (x) 并 且 z=g (x) ， 则 二 者 的 和 的 函数 对 于 同一 个 变量 求 导 的 结果 ， 其 值 将 会 是 两 个 函数 对 于 变量 分 别 求 导 后 的 
结果 做 求 和 运算 (如 公式 1-17 所 示 ) 。 


Oy+7z)_O 
OX OX “Ax 


加 减法 则 常常 被 用 于 简化 求 导 过 程 。 在 一 些 情形 下 ， 往 往 函 数 本 身 是 很 复杂 的 ， 直 接 求 导 将 会 有 很 高 的 复杂 度 ， 这 时 利用 加 减法 则 ， 将 函数 分 成 两 个 或 者 多 个 独立 的 简单 函数 ， 再 分 别 求 导 求 和 ， 原 本 
复杂 的 问题 就 变 得 简单 了 。 


( 1-17 ) 


在 深度 学 习 和 机 器 学 习 中 ， 加 减法 则 常常 用 于 计算 两 个 直接 相连 的 神经 元 之 间 的 相互 影响 。 例 如 神经 网 络 后 一 层 节 点 为 x， 它 同时 受到 前 一 层 中 的 神经 元 y 和 z 的 影响 ， 影 响 关 系 为 x<=y+z， 那 么 当 y 和 |z 同 
时 变化 时 ， 若 要 计算 x 所 发 生 的 变化 ， 便 可 通过 公式 1-5 计 算得 到 。 


(2) 乘法 法 则 (Product Rule) 


接触 完了 导数 的 加 减法 则 ， 读 者 也 许 会 推测 乘法 法 则 是 否 与 之 类 似 : 即 两 个 函数 乘积 的 导数 等 于 两 个 函数 分 别 求 导 的 乘积 ， 答 案 是 否定 的 。 这 里 以 矩阵 乘法 为 例 ， 若 
xERP，y=f (x) ER9,， z=g (x) ER9， 乘 积 的 求 导 过 程 将 如 公式 1-18 所 示 。 


,| / 
Ee (1-18 ) 
Or Ox Ox 


乘法 法 则 乍 看 之 下 比较 抽象 ， 这 里 用 一 个 实际 的 例子 来 说 明 。 如 果 y 的 转 置 代表 函数 中 的 系数 矩阵 ，z 是 自 变量 和 矩阵， 二 者 同时 对 于 x 求 偏 导 数 ， 所 得 到 的 结果 将 会 变 成 两 个 部 分 ， 一 个 部 分 是 自 变量 的 矩 
阵 ， 另 一 个 部 分 是 系数 的 矩阵。 机 器 学 习 乘 法 法 则 也 常常 用 于 计算 两 个 直接 相连 的 神经 元 之 间 的 相互 影响 ， 当 后 一 层 某 一 神经 元 C 是 由 前 一 层 神经 元 A 和 B 通 过 乘法 关系 得 到 的 ， 则 可 以 利用 乘法 法 则 计算 A 
和 B 变 化 时 对 于 C 的 影响 。 


(3) 链 式 法 则 (Chain Rule) 
链 式 法 则 作为 在 机 器 学 习 和 深度 学 习 中 最 为 常用 的 法 则 ， 其 重要 性 毋庸 置 蜂 ， 但 链 式 法 则 本 身 不 好 理解 ， 这 里 我 们 以 一 个 函数 输入 输出 流 为 例 前 释 链 式 法 则 。 


观察 如 下 一 组 函数 ， 这 组 函数 的 输入 值 是 x= (x1，x2) 。 第 一 个 函数 们 是 一 个 求 和 过 程 ， 第 二 个 函数 f2? 是 一 个 求 积 的 过 程 : 


= fi(X1, X2) = XI 十 X2 
F, = f(x1, X2) 一 XIX2 (1-19) 
?一 让 及 = ln(fi)+te” 


把 这 两 个 国 数值 作为 输入 送 给 第 三 个 国 数 g， 国 数 g 就 是 一 个 关于 x1，x2 的 复合 函数 ， 其 最 终 的 输出 值 用 y 表 示 。 由 输入 x 逐 步 计算 得 到 结果 y 的 过 程 用 计算 图 表示 (如 图 1-4 所 示 ) 。 


如 果 由 变量 到 消 数 是 一 个 正 向 传递 的 过 程 ， 那 么 求 导 便 是 一 个 反 向 的 过 程 (如 图 1-5 所 示 ) 。 


* 六 二 可 
i DO 本 a 
有 ?7 -" 


和 本 


,GC 了 
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图 1-5 ”复合 函数 求 导 计算 图 


如 果 要 求 得 函数 g 对 x1 的 偏 导 数 ， 观 察 图 1-5， 可 以 发 现 其 由 g 节 点 到 x1 节 点 共有 两 条 路 径 ， 每 条 路 径 有 两 条 有 向 边 组 成 。 
对 x1 的 偏 导数 。 当 我 们 把 函数 g 看 作 关于 x1，x2 的 复合 函数 时 ， 分 别 求 得 g 对 x1 和 x2 的 偏 导 数 可 以 得 到 如 下 的 公式 ， 这 样 的 求 复 


C8 _Cg8% ,C8 
CR Of OF on OX 
8 _B ,8 
Ox, Of Ox, 让 Ox, 


路 径 可 以 看 作 其 经 过 的 边 的 值 的 乘积 ， 而 
合 函 数 导 数 的 公式 ， 便 是 


两 条 路 径 求 和 就 恰巧 得 到 了 函数 g 
复合 函数 求 导 的 链 式 法 则 。 


1-20 ) 


特别 的 ， 当 有 与 f2 均 为 向 量 函 数 时 ， 此 时 链 式 法 则 将 会 发 生 调 整 ， 如 公式 1-21 所 示 : 


Gucci 
th A ey a 一 一 一 一 一 十 了 1-21 
OX, A OX, 有 OX, Ox, A 2 有 OX, ( 


向 量 求 导 的 链 式 法 则 与 标量 函数 的 链 式 法 则 很 相似 ， 只 不 过 求 导 过 程 变 成 了 求 Jacobi 和 矩阵 ，Jacobi 和 矩阵 定义 如 下 : 
of ... of 
OX. OX, 
3 (i 
Ofn ... Ofn 
oF OX 


需要 注意 的 是 ， 偏 导数 链 式 法 则 中 的 乘法 所 用 到 的 都 是 1.2.1 节 中 第 5 部 分 所 提 到 的 元 素 乘 ， 符 号 为 O。 


ni 


链 式 法 则 作为 深度 学 习 中 最 为 常用 的 一 条 求 导 法 则 ， 常 常用 于 利用 逆向 传播 算法 进行 神经 网 络 的 训练 工作 ， 我 们 将 在 后 续 章 节 详细 学 习 逆向 传播 算法 。 
5. 常 见 的 向 量 和 和 矩 阵 的 导数 


这 里 提供 一 些 常见 的 向 量 及 矩阵 的 导数 知识 ， 读 者 在 推导 神经 网 络 中 的 导数 计算 时 会 用 到 这 些 知识 。 向 量 对 于 其 本 身 的 导数 为 单位 向 量 ， 这 一 点 与 标量 的 计算 相 类 似 。 当 一 个 数 或 者 一 个 向 量 对 其 本 身 
求 导 ， 所 得 到 的 结果 将 是 1 或 者 单位 向 量 。 反 映 到 深度 学 习 的 神经 网 络 中 神经 元 的 相互 影响 上 ， 便 可 以 理解 为 一 个 神经 元 如 果 受 到 自身 变化 的 影响 ， 那 么 其 自身 变化 多 少 ， 影 响 的 大 小 就 有 多 少 : 


ro (1.23 ) 
OX 


向 量 w 和 x 的 乘积 ， 设 其 为 z， 那 么 z 对 于 w 求 偏 导 数 的 结果 为 x 的 转 置 : 


2 二 WA 


Oz T ( 1-24 ) 


拓展 到 答 阵 ， 和 矩阵 W 和 和 矩 阵 X 的 乘积 设 其 为 矩阵 Zz， 那么 Z 对 于 W 求 偏 导 数 ， 其 结果 为 X 的 转 置 : 


=WX 
07 
oW 


_ yzT (1-24 ) 


上 述 两 条 规则 常常 用 于 通过 神经 元 的 结果 ， 依 照 系数 向 量 (或 矩阵 ) 反 推 输入 向 量 (或 矩阵) ， 即 倘若 在 神经 网 络 中 我 们 知道 了 神经 元 的 输出 结果 和 系数 向 量 (或 矩阵 ) ， 便 能 反 推 得 到 输入 ， 从 而 进 
行 验证 或 其 他 操作 。 


矩阵 A 与 向 量 x 的 乘积 对 x 求 偏 导 数 ， 其 结果 为 矩阵 A 的 转 置 A1。 这 个 规则 常常 用 于 求解 具有 Ax 关 系 的 神经 元 之 间 的 相互 连接 ， 也 即 后 一 个 神经 元 如 果 收 到 前 一 个 神经 元 x 的 影响 是 Ax， 那 么 当 直接 相连 的 
前 一 个 神经 元 增加 (或 减少 ) 一 个 单位 时 ， 后 一 个 神经 元 将 相应 地 增加 (或 减少 ) AI 个 单位 : 


4 
4 ( 1-26) 


向 量 x 的 转 置 与 矩阵 A 的 乘积 对 向 量 x 求 偏 导数 ， 其 结果 为 矩阵 A 本 身 。 这 个 规则 常常 用 于 求解 具有 XITA 关 系 的 神经 元 之 间 的 相互 连接 ， 也 即 后 一 个 神经 元 如 果 收 到 前 一 个 神经 元 x 的 影响 是 XIA， 那 么 当 直 
接 相连 的 前 一 个 神经 元 增加 (或 减少 ) 一 个 单位 时 ， 后 一 个 神经 元 将 相应 地 增加 (或 减少 ) A 个 单位 : 


Ox A 
OX 


6. 梯 度 


= [4 ( 1-27 ) 


之 前 讨论 的 导数 ， 基 本 上 是 直接 考量 函数 变化 率 ， 梯 度 (Gradient) 则 从 另 一 个 角度 ， 考 量 函 数 变化 最 快 的 方向 。 在 机 器 学 习 和 深度 学 习 中 梯度 下 降 法 用 以 求解 损失 函数 的 最 小 值 。 梯 度 的 本 意 是 一 个 
向 量 ， 该 向 量 表 示 某 一 孙 数 在 某 一 点 处 的 方向 导数 沿 着 向 量 方 向 取得 最 大 值 ， 即 函数 在 该 点 处 沿 着 该 方向 (梯度 的 方向 ) 变化 最 快 ， 变 化 率 最 大 (为 该 梯度 的 模 ) 。 
af) Bf) 
在 机 器 学 习 中 ， 考 虑 二 元 函数 的 情形 。 设 函数 z=f (x，y) 在 平面 区 域 D 内 具有 一 阶 连续 偏 导数 ， 则 对 于 每 一 点 P_ (x，y) ED， 都 可 以 定 出 一 个 向 量 Gx ”6x ， 这 个 向 量 称 为 函数 z=f (x，y) 在 点 
P (x，y) 的 梯度 ， 记 作 grad f (x，y) 。 如 图 1-6 所 示 ， 红 色 折 线 折线 方向 便 是 梯度 方向 。 


倘若 图 1-6 中 的 曲面 表示 的 是 损失 函数 ， 那 么 梯度 方向 便 是 损失 遂 数 中 损失 减少 最 快 的 方向 。 使 用 梯度 就 找到 了 探测 最 小 损失 效率 最 高 的 方向 ， 设 定 一 个 恰当 的 初始 值 和 探测 步 长 ， 就 能 在 最 快 的 速度 下 
找到 需要 的 最 小 的 损失 值 。 梯 度 作为 探测 损失 函数 中 最 小 损失 的 一 个 “指南 针 ” ， 避 免 了 寻找 一 个 最 低 的 损失 时 低 效 率 的 枚 举 的 情况 发 生 。 在 机 器 学 习 和 深度 学 习 中 涉及 最 优 解 问题 时 提供 了 一 个 较为 方便 
的 初始 搜索 方向 ， 对 于 机 器 学 习 和 深度 学 习 具 有 很 重要 的 意义 。 


一 iD wm 和 上 wm oo 
2 = X*Xx+y*y 


图 1-6 梯度 下 降 示 意图 


1.3 Python 库 的 操作 


Python 作为 机 器 学 习 和 深度 学 习 最 主流 的 编程 语言 ， 在 机 器 学 习 和 深度 学 习 工程 具体 实现 中 提供 了 哪些 主要 库 函 数 呢 ” 有 具体 代码 实现 时 会 用 到 哪些 操作 呢 ?” 这 里 介绍 两 个 在 深度 学 习 中 最 为 常用 的 库 函 
数 一 numpy 和 matplotlib。 


注意 由 于 目前 PaddlePaddle 仅 支持 Python 2 (推荐 2.7) ， 本 书 中 所 用 的 Python 语法 、 函 数 等 均 为 Python 2.X 版 本 。 


1.3.1 numpy 操 作 

numpy (Numerical Python Extension) 是 一 个 第 三 方 的 Python 包 ， 用 于 科学 计算 。 这 个 库 的 前 身 是 1995 年 就 开始 开发 的 一 个 用 于 数组 运算 的 库 。 经 过 了 长 时 间 的 发 展 ， 基 本 上 成 了 绝 大 部 分 
Python 科学 计算 的 基础 包 ， 当 然 也 包括 所 有 提供 Python 接口 的 深度 学 习 框 架 。 

1. 基 本 模块 


(1) array 模 块 


array， 也 就 是 数组 ， 是 numpy 中 最 基础 的 数据 结构 。 最 关键 的 属性 是 维度 和 元 素 类 型 ， 在 numpy 中 ， 可 以 非常 方便 地 创建 各 种 不 同类 型 的 多 维 数组 ， 并 且 执 行 一 些 基 本 操作 。 在 深度 学 习 中 ， 如 果 神 
经 元 之 间 的 连接 关系 涉及 的 参数 是 数组 ， 便 可 利用 array 模 块 进行 设 定 ， 来 看 代码 清单 1-1 所 示 : 


代码 清单 1-1 array 的 基本 操作 


import numpy as np 


a= [1, 2, 3, 4] # a 是 python 中 的 1ist 类 型 

b = np.array (a) # 数组 化 之 后 b 的 类 型 变 为 array 

type (b) # b 的 类 型 <type 'numpy.ndarray'> 

b. shape # shape 参 数 表示 array 的 大 小 ， 这 里 是 (4 

b.argmax () # 调用 max () 函数 可 以 六 得 zr2y 中 的 最 类 价 的 雪 引 ， 这 里 是 3 
b.max() 4 调用 ex () 本 本 以 六 但 arzay 中 的 最 大 但， 这 里 是 4 
b.mean () # 调用 mean () 函数 可 以 求 得 array 中 的 平均 值 ， 这 里 是 2.5 


注意 到 在 导入 numpy 的 时 候 ， 代 码 中 将 np 作为 numpy 的 别名 。 这 是 一 种 习惯 性 的 用 法 ， 后 面 的 章节 中 本 书 也 默认 这 么 使 用 。 例 如 在 机 器 学 习 中 常用 到 的 和 矩 阵 的 转 置 操作 ， 可 以 通过 matrix 构 建 短 
阵 ，transpose 函 数 来 实现 转 置 ， 如 代码 清单 1-2 所 示 : 


代码 清单 1-2 numpy 中 实现 矩阵 转 置 


import numpy as np 
x=nNp.array (np.arange (12) .reshape ( (3,4))) 


对 于 一 维 的 array， 所 有 Python 列表 (list) 支持 的 下 标 操作 方法 array 也 都 支持 ， 所 以 在 此 没有 特别 列 出 。 


代码 清单 1-3 numpy 基 础 数学 运算 


import numpy as np 


# 绝对 值 ，1L 
a = np.abs(-1) 


# sin 函 数 ，1.0 

b = np.sin(np.pi/2) 
# 

& 


tanh 逆 函数 ，0.50000107157840523 
= np.arctanh (0.462118) 


# e 为 底 的 指数 函数 ，20 .085536923187668 
d = np.exp (3) 
# 


2 的 3 次 方 ，8 
f = np.power(2, 3) 


# 点 乘 ，1*3+2*4=11 

g = np.dot([l; 2],; [3;: 4]) 
# 开 方 ，5 

h = np.sqgrt (25) 

# 求 和 ，10 

1 = np.sum([1l, 2, 3, 4]) 


= np.mean([4, 5, 6, 7]) 


标准 差 ，0 .96824583655185426 
= metad(tlly Zr 3 2 dr 3 Zr VO)) 


(2) random 模 块 


numpy 中 的 随机 模块 包含 了 随机 数 产 生 和 统计 分 布 相关 的 基本 函数 。Python 本 身 也 有 随机 模块 random， 不 过 numpy 的 random 功 能 更 丰富 ， 随 机 模块 一 般 会 用 于 深度 学 习 中 的 一 些 随机 数 的 生 
成 ，seed 的 生成 以 及 初始 值 的 设 定 ， 具 体 的 用 法 请 看 代码 清单 1-4: 


代码 清单 1-4 random 模 块 相关 操作 


import numpy as np 


# 设置 随机 数 种 子 


np.random. seed (42) 


# 产生 一 个 1x3, [0,1) 之 间 的 浮 点 型 随机 数 
# array([[ 0.37454012, 0.95071431, 0.73199394]]) 
# 后 面 的 例子 就 不 在 注释 中 给 出 具体 结果 了 


np.random.rand (1, 3) 


# 产生 一 个 [0,1] 之 间 的 浮 点 型 随机 数 


np.random.random () 


# 从 a 中 有 放 回 的 随机 采样 7 个 
a= np.array([l; 2; 37 4,; Sy 6 11) 
np.random.choice (a, 7) 


# 从 a 中 无 放 回 的 随机 采样 7 个 


np.random.choice(a, 7, replace=False) 


# 对 a 进行 乱 序 并 返回 一 个 新 的 array 
b = np.random.permutation (a) 


# 生成 一 个 长 度 为 9 的 随机 bytes 序 列 并 作为 str 返 回 
# '\x96\x9d\xdl?\xe6\x18\xbb\x9a\xec'! 
np.random.bytes (9) 


随机 模块 同时 可 以 很 方便 地 做 一 些 快速 模拟 去 验证 一 些 结论 ， 在 神经 网 络 中 也 能 够 做 一 些 快速 的 网 络 构造 。 比 如 来 考虑 一 个 非常 违反 直觉 的 概率 题 例子 : 选手 去 参加 一 个 TV 秀 ， 有 三 扇 门 ， 其 中 一 
扇 门 后 有 奖品 ， 这 扇 门 只 有 主持 人 知道 ; 选手 先 随机 选 一 扇 门 ， 但 并 不 打开 ， 主 持 人 看 到 后 ， 会 打开 其 余 两 扇 门 中 没有 奖品 的 一 扇 门 ， 然 后 ， 主 持 人 问 选手 ， 是 否 要 改变 一 开始 的 选择 ? 


这 个 问题 的 答案 是 应 该 改变 一 开始 的 选择 。 在 第 一 次 选择 的 时 候 ， 选 错 的 概率 是 2/3， 选 对 的 概率 是 1/3。 第 一 次 选择 之 后 ， 主 持 人 相当 于 帮忙 剔除 了 一 个 错误 答案 ， 所 以 如 果 一 开始 选 的 是 错 的 ， 这 时 


候 换 掉 就 选 对 了 ;而 如 果 一 开始 就 选 对 ， 则 这 时 候 换 掉 就 错 了 。 根 据 以 上 ， 一 开始 选 错 的 概率 就 是 换 掉 之 后 选 对 的 概率 (2/3) ， 这 个 概率 大 于 一 开始 就 选 对 的 概率 (1/3) ， 所 以 应 该 换 。 虽 然 道理 上 是 这 
样 ， 但 还 是 有 些 绕 ， 要 是 通过 推理 就 是 搞 不 明白 怎么 办 ， 没 关系， 用 随机 模拟 就 可 以 轻松 得 到 答案 。 


注意 ”这 一 部 分 请 读者 作为 练习 自行 完成 。 
2. 广 播 机 制 


对 于 array， 默 认 执 行 对 位 运算 。 涉 及 多 个 array 的 对 位 运算 需要 array 的 维度 一 致 ， 如 果 一 个 array 的 维度 和 另 一 个 array 的 子 维度 一 致 ， 则 在 没有 对 齐 的 维度 上 分 别 执行 对 位 运算 ， 这 种 机 制 叫 作 广 
播 (Broadcasting) ， 具体 通过 代码 清单 1-5 理 解 : 


代码 清单 1-5 广播 机 制 的 理解 


import numpy as np 


b= np.array (| 
[1, 2, 3], 
[1, 2, 3] 


] ) 


维度 一 样 的 array， 对 位 计算 
array ([[2, 4, 6], 
L35 Tr.91) 


d= np.array([2, 2, 2]) 


广播 机 制 让 计算 的 表达 式 保持 简洁 
q 和 c 的 每 一 行 分 别 进 行 运 入 
array([[ 3, 4, 5], 


[ 6, 7, 8], 
[ 9, 10, 11], 
[12, 13, 14]]) 
| 
3. 向 量化 


读者 在 数学 基础 部 分 ( 见 1.2.1 节 ) 已 经 初步 了 解 到 ， 向 量化 在 深度 学 习 中 的 应 用 十 分 广泛 ， 它 是 提升 计算 效率 的 主要 手段 之 一 ， 对 于 在 机 器 学 习 中 缩短 每 次 训练 的 时 间 是 很 有 意义 的 。 当 可 用 工作 时 间 
`\ 变 的 情况 下 ， 更 短 的 单 次 训练 时 间 可 以 让 程序 员 有 更 多 的 测试 机 会 ， 进 而 更 早 更 好 地 调整 神经 网 络 结构 和 参数 。 接 下 来 通过 一 个 矩阵 相 乘 的 例子 来 呈现 向 量化 对 于 代码 计算 速度 的 提升 效果 。 代 码 清单 1- 
6、1-7、1-8 展 示 了 向 量化 对 于 计算 速度 的 提升 效果 。 在 代码 清单 1-6 中 首先 导入 了 numpy 和 time 库 ， 它 们 分 别 被 用 于 数学 计算 和 统计 运行 时 间 。 然 后 准备 数据 ， 这 里 初始 化 两 个 1000000 维 的 随机 向 量 v1 
和 v2，v 作 为 计算 结果 初始 化 为 零 。 


代码 清单 1-6 导入 库 和 数据 初始 化 


import numpy as np 
import time 

# 初 始 化 两 个 1000000 维 的 随机 向 量 v1, v2 用 于 和 矩阵 相 乘 计算 
V1 = np.random.rand (1000000) 

V2 = np.random.rand(1000000) 

V=0 


在 代码 清单 1-7 中 ， 设 置 变量 tic 和 toc 分 别 为 计算 开始 时 间 和 结束 时 间 。 在 非 向 量化 版 本 中 ， 两 个 向 量 相 乘 的 计算 过 程 使 用 for 循 环 实现 。 


代码 清单 1-7 ”和 矩阵 相 乘 ( 非 向 量化 版 本 ) 


# 和 矩阵 相 乘 - 非 向 量化 版 本 

tic = Lime.time() 

for i in range (1000000): 

V+= vi[i] * v2[i] 

toc = time.time () 

print (" 非 向 量化 -计算 时 间 :" + str((toc - tic)*1000)+"ms"+"\n") 


在 代码 清单 1-8 中 ， 同 样 使 用 变量 tic 和 toc 记 录 计 算 开 始 和 结束 时 间 。 向 量化 版 本 使 用 numpy 库 的 numpy.dot () 计算 矩 阵 相 乘 。 


代码 清单 1-8 ”和 矩阵 相 乘 (向 量化 版 本 ) 


# 和 矩阵 相 乘 -向 量化 版 本 
i i () 


tic = time.time 
V = np.dot (vl, v2) 
toc = time.time () 


print ("向 量化 -计算 时 间 :" + str((toc - tic)*1000)+"ms") 


为 了 保证 计算 结果 相同 ， 我 们 输出 了 二 者 的 计算 结果 ， 确 保 计 算 无 误 。 最 后 的 输出 结果 为 : “ 非 向 量化 计算 时 间 578.0208ms， 向 量化 计算 时 间 1.1038ms”。 可 以 观察 到 效率 提升 效果 十 分 显著 。 非 向 
量化 版 本 的 计算 时 间 约 为 向 量化 版 本 计算 时 间 的 500 倍 。 可 见 向 量化 对 于 计算 速度 的 提升 是 很 明显 的 ， 尤 其 是 在 长 时 间 的 深度 学 习 训 练 中 ， 向 量化 可 以 帮助 开发 者 节省 更 多 时 间 。 


1.3.2 ”matplotlib 操 作 


matplotlib 是 Python 中 最 常用 的 可 视 化 工具 之 一 ， 可 以 非常 方便 地 创建 海量 类 型 2D 图 表 和 一 些 基本 的 3D 图 表 。matplotlib 最 早 是 为 了 可 视 化 闻 病 病人 的 脑 皮层 电 图 相关 的 信号 而 研发 的 ， 因 为 在 遂 数 
的 设计 上 参考 了 MATLAB， 所 以 叫 作 matplotlib。matplotlib 的 原作 者 John D.Hunter 博 士 是 一 名 神经 生物 学 家 ，2012 年 不 幸 因 癌 症 去 世 ， 感 谢 他 创建 了 这 样 一 个 伟大 的 库 。matplotlib 首 次 发 表 于 2007 
年 ， 在 开源 社区 的 推动 下 ， 在 基于 Python 的 各 个 科学 计算 领域 都 得 到 了 广泛 应 用 。 


注意 ”安装 Matplotlib 的 方式 和 numpy 很 像 ， 可 以 直接 通过 UNIX/Linux 的 软件 管理 工具 ， 比 如 Ubuntu 16.04 LTS 下 ， 输 入 : 


>> sudo apt-get install python-matplotlib 


或 者 通过 pip 安 装 : 


>> pip install matplotlib 


Windows 下 也 可 以 通过 pip 安 装 ， 或 是 到 官网 下 载 (http://matplotlib.org/) 。 


1. 图 表 展 示 


matplotlib 非 常 强大 ， 不 过 在 深度 
单 1-9 所 示 ， 由 于 func 是 一 个 凸 浮 数 ， 因 此 它 唯一 的 极 小 值 同 时 也 是 


代码 清单 1-9 创建 目标 函数 及 目标 浮 数 求 导 函 数 


numpYy 


as np 


matplotlib.pyplot as plt 


return np.square (x) 


va 目标 函数 一 阶 导数 也 即 是 偏 导数 :qy/dx=2xx 


dfunc (X) : 


return 2 


* 区 


接 下 来 编写 梯度 下 降 法 功能 函数 GD () ， 如 代码 清单 1-10 所 示 : 


代码 清单 1-10 ”梯度 下 降 法 功能 函数 实现 


def 


在 map_plot () 


gradient 


descent (x start, df, epochs, learning rate): 


梯度 下 降 法 。 给 定 起 始点 与 目标 函数 的 一 阶 导 函 数 ， 求 在 epochs 次 迭代 中 x 的 更 新 值 


x_start: x 的 起 始点 


args: 


Func 


return: 


epochs: 和 迭代 周期 
learning rate: 学 习 率 


deri: 目标 函数 的 一 阶 导 函数 


xs 在 每 次 迭代 后 的 位 置 〈《 包 括 起 始点 ) ， 长 度 为 epochs+1 


theta x 


temp x = 


for i in 
deri 


np .zeros (epochs + 1) 
x start 


theta x[0] = temp x 


range (epochs) : 
x = func deri (temp 1 b>) 


# Vv 表示 x 要 改变 的 幅度 


delta = ~- deri x * learing rate 


temp 


x = temp x + delta 


theta x[i+1] = temp x 


return theta x 


代码 清单 1-11 利用 matplotlib 实 现 图 像 绘制 


def 


mat plot(): 
# 


利用 matplotlib 绘 制图 像 


line x = 
line y = 


np.linspace(-5, 5, 100) 
func (line x) 


x Start = 


epochs = 


lr=0.3 


5 


X = gradient descent (x start, dfunc, epochs, lr=1r) 


Color = 


1 


_plot 实 现 绘制 的 主 功能 


t .plot 


(line x, line y, c="'b') 


lt.plot 


(x, J ), c=color, label="'1lr={}'.format (1r)) 


lt.scat 


Le (人 func (x), C=color, ) 


函数 } 显 所 图 例 


lt.legend () 


t .show 


# 

p 

p 

p 

# legend 
p 

# 

pl 

_Pplot () 


这 个 例子 中 展示 了 如 何 利用 梯度 下 降 法 寻找 x2 的 极 小 值 ， 起 始 检索 点 为 Xx=-5， 学 习 率 为 0.5， 最 


show 国 数 显示 


() 


最 终 绘 


完成 其 他 多 种 多 样 的 图 像 的 绘制 ， 具 体 实现 请 参考 matplotlib 官 方 文档 (网 址 : http://matplotlib.org/) 。 


数 为 dfunc (x) =2*x。 


函数 中 ， 具 体 用 matplotlib 实 现 了 展示 梯度 下 降 法 搜索 最 优 解 的 过 程 ， 如 代码 清单 1-11 所 示 : 


| 的 图 像 如 图 1-7 所 示 ， 


图 中 红线 为 检索 过 程 ， 


红 点 


AAA 


度 学 习 中 常用 的 其 实 只 有 很 基础 的 一 些 功能 。 这 里 以 机 器 学 习 中 的 梯度 下 降 法 来 展示 其 图 表 功 能 。 首 先 假设 现在 需要 求解 目标 遂 数 func (x) =x*x 的 极 小 值 ， 如 代码 清 
它 的 最 小 值 ， 其 一 阶 导 国 


为 每 次 更 新 的 x 值 所 在 的 点 。 利 用 matplotlib 还 能 


-6 -4 -2 0 2 4 6 


2. 图 像 显示 


图 1-7 matplotlib 绘 制图 像 


matplotlib 也 支持 图 像 的 存 取 和 显示 ， 并 且 和 OpenCV 一 类 的 接口 比 起 来 ， 对 于 一 般 的 二 维和 矩阵 的 可 视 化 要 方便 很 多 ， 这 一 点 在 机 器 学 习 中 体现 得 极为 方便 ， 如 代码 清单 1-12 所 示 : 


代码 清单 1-12 


利用 matlibplot 实 现 图 像 的 显示 


import matplotlib.pyplot as pilt 


.figure('A 


读 取 一 张 小 白 狗 的 照片 并 显示 


ittle White Dog') 


ittle dog img = plt.imread('little white dog.jpg') 


是 小 白 狗 的 照片 ，img0 就 是 2，img1 是 2 做 了 个 简单 的 变换 


# 

p 

业 oo 一 一 

plt.imshow (Little dog img) 
# 

2 

2 


plt.imread('little white dog.jpg') 
人 2Z) 


2 
' = rgb2gray( 
ijmg0 = 2 
ijmgl =1-2Z 


# cmap 指 定 为 'gray 用 来 显示 灰 度 图 


.figure('Auto Normalized Visualization') 


plt 
ax0 = fig.add subplot (121) 


ax0 .imshow (img0, cmap="'gray') 
axl = fig.add subplot (122) 
axl .imshow (imgl, cmap="'gray') 


plt.show () 


这 段 代码 中 第 一 个 例子 是 读 取 一 个 本 地 图 片 并 显示 ， 如 图 1-8 所 示 ， 第 二 个 例子 将 读 取 的 原 图 灰 度 化 ， 经 过 灰 度 像素 变换 的 图 直接 绘制 了 两 个 形状 一 样 ， 但 是 值 的 范围 不 一 样 的 图 案 。 显 示 的 时 候 
imshow 会 自动 进行 归 一 化 ， 把 最 亮 的 值 显示 为 纯 白 ， 最 暗 的 值 显示 为 纯 黑 。 这 是 一 种 非常 方便 的 设 定 ， 尤 其 是 查看 深度 学 习 中 某 个 卷 积 层 的 响应 图 时 ， 得 到 图 1-9 所 示 。 


SPT Sd 屋 量 


0 200 400 000 800 1000 


图 1-8 ”matplotlib 显 示 图 片 


| 


0 2350 S00 730 1000 0 250 S500 7530 1000 


图 1-9 ”matplotlib 显 示 图 像 处 理 后 的 结果 


注意 这 里 只 讲 到 了 最 基本 和 常用 的 图 表 及 最 简单 的 例子 ， 更 多 有 趣 精 美的 例子 可 以 在 Matplotlib 的 官网 找到 : Thumbnail gallety-Matplotlib 1.5.3 documentation (http://matplotlib.org/gallery.html) 。 


本 草 小 结 


本 章 开篇 介绍 了 本 书 用 来 进行 深度 学 习 的 语言 一 Python，Python 以 其 简单 、 方 便 和 支持 库 多 的 特点 ， 被 本 书 及 多 数 深 度 学 习 开发 者 作为 主要 的 语言 使 用 。 和 希望 读者 能 够 在 课余 夯实 基础 ， 提 高 对 于 
Python 的 熟练 程度 。 同 时 ， 没 有 规矩 ， 不 成 方圆 ， 在 开发 之 余 ， 也 要 牢记 Python 之 禅 的 要 求 ， 开 发 出 简单 可 依赖 的 漂亮 的 代码 。 


在 本 章 的 中 段 ， 回 顾 了 深度 学 习 中 需要 的 一 些 基础 的 数学 知识 ， 偏 导数 、 梯 度 、 链 式 法 则 等 内 容 尤 其 需要 读者 予以 重视 ， 这 为 后 续 章 节 的 一 些 细致 的 数学 推导 葛 定 了 基础 。 


本 章 最 后 介绍 了 Python 中 与 机 器 学 习 和 深度 学 习 相关 的 基础 模块 numpy 和 matplotlib。 在 numpy 部 分 重点 介绍 了 array 和 random 的 用 法 ， 这 在 之 后 的 章节 初始 化 参数 和 计算 时 会 频繁 使 用 到 。 同 时 ， 
广播 机 制作 为 一 个 重要 的 机 制 ， 需 要 读者 予以 重视 。 对 于 numpy 中 向 量化 的 思想 ， 由 于 其 计算 速度 上 的 优势 ， 编 者 希望 读者 在 平时 的 学 习 工 作 中 能 够 尽量 利用 向 量化 来 处 理 计算 问题 。matplotlib 作 为 计算 
结果 可 视 化 和 图 像 处 理 的 基础 ， 需 要 读者 阅读 和 多 加 练习 ， 做 到 熟练 操作 。 


本 章 的 参考 代码 在 https://github.com/BaiduOSS/DeepLearningAndPaddleTutorial 下 lesson1 子 目录 下 。 


第 2 章 ”深度 学 习 概 论 与 PaddlePaddle 入 门 


人 类 在 经 历 了 藉 汽 革命 、 电 气 革命 和 信息 技术 革命 后 ， 终 于 迎 来 了 一 场 空前 的 智能 革命 。 百 度 、 谷 歌 、 微 软 、 阿 里 巴巴 等 国内 外 大 公司 纷纷 宣布 将 人 工 智能 作为 他 们 下 一 步 的 战略 重心 。 人 工 智能 、 机 
器 学 习 、 深 度 学 习 这 几 个 关键 词 一 时 间 占 据 了 媒体 报道 的 大 量 版 块 。 面 对 繁杂 的 概念 ， 初 学 者 们 无 法 短 时 间 内 正确 区 分 这 其 中 的 关系 ， 本 章 针 对 这 一 问题 ， 向 读者 介绍 深度 学 习 领域 的 重要 知识 。 本 章 首先 
解释 了 人 工 智 能 、 机 器 学 习 和 深度 学 习 的 概念 与 天 系 ， 用 通俗 的 语言 为 读者 提供 一 个 系统 的 概述 。 其 次 ， 以 时 间 为 线索 ， 介 绍 深度 学 习 的 发 展 历 程 。 从 深度 学 习 的 前 身 一 一 神经 网 络 开始 叙述 ， 了 解 神经 网 
络 领域 如 何 历经 三 起 三 落 最 终 迎 来 了 深度 学 习 的 鞍 勃 发 展 。 接 着 前 述 了 “深度 学 习 ” 如 何以 其 强大 的 能 力 和 灵活 性 被 应 用 到 各 种 场景 中 ， 并 介绍 了 几 个 常见 的 模型 及 其 应 用 的 领域 。 本 章 还 带领 读者 以 线性 
回归 为 例 进行 机 器 学 习 知识 的 回顾 ， 介 绍 了 常见 的 深度 学 习 框架 ， 并 以 PaddlePaddle 框 架 为 例 介 绍 了 它 的 基本 使 用 方法 ， 最 后 用 PaddlePaddle 框 架 实 现 了 简单 的 线性 回归 模型 。 


本 章 希 望 读 者 能 够 掌握 的 知识 点 有 : 

(1) 人 工 智 能 、 机 器 学 习 和 深度 学 习 的 关系 。 

(2) 深度 学 习 岂 起 的 3 个 理由 。 

(3) 常见 的 深度 网 络 模型 : CNN、RNN、FC。 

(4) 机 器 学 习 基 本 概念 : 假设 函数 、 损 失 函 数 、 优 化 算法 。 
(5) 如 何 安装 和 使 用 PaddlePaddle。 


(6) 如 何 跑 完 第 一 个 房价 预测 程序 。 


2.1 人 工 智 能 、 机 器 学 习 与 深度 学 习 


在 介绍 具体 概念 之 前 ， 先 从 一 张 图 看 起 。 图 2-1 表 示 了 人 工 智 能 、 机 器 学 习 、 深 度 学 习 三 者 可 以 被 简单 描述 为 嵌 套 关系 : 人 工 智能 是 最 早出 现 的 ， 范 围 也 最 广 ; 随后 出 现 的 是 机 器 学 习 ; 最 内 侧 是 深度 学 
习 ， 也 是 当今 人 工 智能 大 爆炸 的 核心 驱动 。 


图 2-1 人工 智 能 、 机 器 学 习 和 深度 学 习 的 关系 


人 工 智能 、 机 器 学 习 和 深度 学 习 的 依次 出 现 伴随 着 问题 的 反复 发 生 和 解决 。20 世 纪 50 年 代 人 工 智能 首次 被 提出 ， 那 时 初 露头 角 的 人 工 智能 令 各 行 各 业 兴 奋 不 已 ， 人 们 纷纷 认为 找到 了 一 条 万 能 的 道路 ， 
紧 接 着 人 工 智 能 开始 酝酿 其 第 一 次 浪潮 ， 人 工 智能 实验 室 在 全 球 各 地 扎根 。 而 人 们 过 于 乐观 的 态度 以 及 当时 人 工 智能 技术 不 可 避免 的 局 限 性 使 得 大 众 逐 渐 对 这 一 领域 失去 了 热情 。1973 年 《莱特 希 尔 报 告 》 
推出 后 ， 人 工 智 能 被 普遍 认为 是 没有 出 路 的 。 经 历 了 10 年 的 沉寂 ， 到 了 80 年 代 ， 以 专家 系统 为 代表 的 机 器 学 习 开 始 兴 起 ， 人 工 智能 进入 了 第 二 个 发 展 阶段 。 随 后 人 们 意识 到 人 工 智能 的 问题 不 是 硬件 的 问 
题 ， 而 是 软件 以 及 算法 层面 的 挑战 没有 突破 。 正 在 人 们 遭遇 算法 瓶颈 时 ， 硬 件 也 出 现 了 危机 。 随 着 1987 年 基于 通用 计算 的 Lisp 机 器 在 商业 上 的 失败 ， 机 器 学 习 也 逐渐 进入 了 低迷 期 。 到 了 20 世 纪 90 年 代 后 
期 ， 由 于 计算 机 计算 能 力 的 不 断 提 高 ， 人 工 智能 再 次 卷土重来 。2006 年 研究 人 员 发 现 了 成 功 训练 深层 神经 网 络 的 方法 ， 并 将 这 一 方法 定义 为 深度 学 习 。2012 年 深度 学 习 应 用 到 图 像 识 别 领域 ， 大 大 突破 了 之 
前 的 算法 ， 将 最 好 的 结果 一 下 子 推进 到 了 靠近 突破 人 类 最 佳 表现 的 边缘 。 此 后 ， 深 度 学 习 凭借 其 出 色 表 现 ， 在 各 大 领域 掀起 浪潮 ， 引 起 了 整个 科研 界 和 工业 界 的 狂热 。 


简单 来 说 ， 机 器 学 习 是 实现 人 工 智能 的 方法 ; 深度 学 习 ， 是 实现 机 器 学 习 的 技术 之 一 。 也 可 以 说 ， 机 器 学 习 是 人 工 智能 的 子 集 ， 而 深度 学 习 是 机 器 学 习 的 子 集 。 接 下 来 我 们 不 禁 要 问 这 三 者 具体 包含 了 
什么 ? 它们 区 别 与 联系 是 什么 ? 这 就 需要 进行 更 深入 的 比较 。 


2.1.1 ”人工 智能 


1956 年 ， 在 美国 的 达 特 茅 斯 学 院 ，John McCarthy (图 灵 奖 得 主 ) 、Marvin Minsky (人 工 智能 与 认 知 学 专家 、 图 灵 奖 得 主 ) 、Claude Shannon (信息 论 之 父 ) 、Allen Newell (计算 机 科学 家 ) 、 
Herbert Simon ( 诺 贝尔 经 济 学 奖 得 主 ) 等 科学 家 聚 在 一 起 ， 正 式 提 出 了 人 工 智 能 (Artificial Intelligence) 的 概念 。 


如 今 ， 经 过 不 断 地 修订 与 讨论 ， 可 以 认为 : 人 工 智能 ,是 计算 机 科学 的 一 个 分 支 ， 是 一 门 研究 机 器 智能 的 学 科 ， 即 用 人 工 的 方法 和 技术 来 研制 智能 机 器 或 智能 系统 ， 以 此 来 模仿 、 延 伸 和 扩展 人 的 智 
能 。 人 工 智 能 的 主要 任务 是 建立 智能 信息 处 理 理论 ， 使 计算 机 系统 拥有 近似 于 人 类 的 智能 行为 。 它 是 当前 科学 技术 中 正在 迅速 发 展 ， 且 新 思想 、 新 观点 、 新 理论 、 新 技术 不 断 涌现 的 一 个 学 科 ， 也 是 一 门 涉 
及 数学 、 计 算 机 科学 、 控 制 论 、 信 息 论 、 心 理学 、 哲 学 等 学 科 的 交叉 学 科 和 边缘 学 科 ， 是 计算 机 科学 的 一 个 重要 分 支 和 计算 机 应 用 的 一 个 广阔 的 新 领域 。 


2.1.2 ”机 器 学 习 


卡 内 基 梅 隆 大 学 的 Tom Michael Mitchel 教 授 在 1997 年 出 版 的 书籍 《Machine Learning》 中 对 机 器 学 习 做 了 非常 专业 的 定义 ， 这 个 定义 在 学 术 界 被 多 次 引用 : “如 果 一 个 程序 可 以 在 任务 T 上 ， 随 着 
经 验 E 的 增加 ， 效 果 P 也 可 以 随 之 增加 ， 则 称 这 个 程序 可 以 从 经 验 中 学 习 。” 以 下 棋 为 例 : 设计 出 的 程序 可 以 随 着 对 弃 盘 数 的 增加 ， 不 断 修正 自己 下 棋 的 策略 ， 胜 率 不 断 地 提高 ， 就 认为 这 个 程序 可 以 在 经 验 
中 学 习 。 


总 体 来 说 ， 机 器 学 习 是 一 种 “训练 ”算法 的 方式 ， 目 的 是 使 机 器 能 够 向 算法 传送 大 量 的 数据 ， 并 人 允许 算法 进行 自我 调整 和 改进 ， 而 不 是 利用 具有 特定 指令 的 编码 软件 例 程 来 完成 指定 的 任务 。 它 要 在 大 
数据 中 寻找 一 些 “ 模 式 ”， 然 后 在 没有 过 多 的 人 为 参与 的 情况 下 ， 用 这 些 模式 来 预测 结果 ， 而 这 些 模式 在 普通 的 统计 分 析 中 是 看 不 到 的 。 机 器 学 习 的 传统 算法 包括 决策 树 学 习 、 推 导 逻 辑 规划 、 聚 类 、 分 
类 、 回 归 、 贝 叶 斯 网 络 和 神经 网 络 等 。 


传统 机 器 学 习 最 天 键 的 问题 是 必须 依赖 给 定数 据 的 表示 ， 而 实际 上 ， 在 大 部 分 任务 中 我 们 很 难 知道 应 该 提取 哪些 特征 。 例 如 我 们 想 要 在 一 堆 动物 的 图 片 中 辨认 出 猫 ， 通 常会 试图 通过 判断 胡须 、 耳 所 、 
尾巴 等 元 素 存在 与 否 来 辨 从， 但 如 果 照 片 中 存在 很 多 遮挡 物 或 是 猫 的 姿势 改变 等 ， 都 会 影响 机 器 识别 特征 。 找 不 到 一 个 合理 的 方法 提取 数据 ， 这 就 使 问题 变 得 棘手 。 


直到 深度 学 习 的 出 现 ， 通 过 其 他 较 简 单 的 表示 来 表达 复杂 的 表示 ， 解 决 了 机 器 学 习 的 核心 问题 。 


深度 学 习作 为 目前 机 器 学 习 领 域 最 火 的 分 支 ， 是 用 于 实现 人 工 智 能 的 关键 拷 术 。 相 比 于 传统 的 机 器 学 习 ， 深 度 学 习 不 再 需要 人 工 的 方式 进行 特征 提取 ， 而 是 自动 从 简单 特征 中 提取 、 组 合 更 复杂 的 特 
征 ， 从 数据 里 学 习 到 复杂 的 特征 表达 形式 并 使 用 这 些 组 合 特征 解决 问题 。 


早期 的 深度 学 习 受 到 了 神经 科学 的 启发 ， 深 度 学 习 可 以 理解 为 传统 神经 网 络 (神经 网 络 的 相关 介绍 在 2.2 节 中 展开 ) 的 拓展 ， 如 图 2-2 所 示 。 二 者 的 相同 之 处 在 于 ， 深 度 学 习 采 用 了 与 神经 网 络 相似 的 分 
层 结 构 : 系统 是 一 个 包括 输入 层 、 隐 层 、 输 出 层 的 多 层 网 络 。 


输入 层 隐 层 


SC CARD 各 
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通过 以 上 描述 可 以 简单 理解 为 ， 深 度 学 习 是 基于 多 层 神经 网 络 的 ， 以 海量 数据 为 输入 的 ， 规 则 自学 习 的 方法 。 然 而 为 什么 一 定 是 深度 ? 深层 神经 网 络 比 浅 层 好 在 哪里 ? 
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一 方面 ， 深 度 学 习 在 重复 利用 中 间 层 计算 单元 的 情况 下 ， 大 大 减少 了 参数 的 设 定 。 在 过 去 的 神经 网 络 中 ， 人 们 对 经 验 的 利用 ， 靠 人 类 自己 完成 。 在 深度 学 习 中 ， 经 验 以 数据 形式 存在 。 另 一 方面 ， 深 度 
学 习 通过 学 习 一 种 深层 非 线 性 网 络 结构 ， 只 需 简 单 的 网 络 结构 即 可 实现 复杂 函数 的 逼近 ， 并 展现 了 强大 的 从 大 量 无 标注 样本 集中 学 习 数 据 集 本 质 特征 的 能 力 。 深 度 学 习 可 以 获得 更 好 的 方法 表示 数据 的 特 
征 ， 同 时 由 于 模型 的 层次 深 、 表 达能 力 强 ， 因 此 有 能 力 处 理 大 规模 数据 。 对 于 图 像 、 语 音 这 种 直接 特征 不 明显 (需要 手工 设计 且 很 多 没有 直观 的 物理 含义 ) 的 问题 ， 深 度 模型 能 够 在 大 规模 训练 数据 上 取得 
更 好 的 效果 。 

值得 注意 的 是 ， 深 度 学 习 不 是 万 能 的 ， 像 很 多 其 他 方法 一 样 ， 它 需要 结合 特定 领域 的 先 验 知识 ， 需 要 和 其 他 方法 结合 才能 得 到 最 好 的 结果 。 此 外 ， 类 似 于 神经 网 络 ， 深 度 学 习 的 另 一 局 限 性 是 可 解释 性 
不 强 ， 像 个 “黑箱 子 ” 一 样 难以 解释 为 什么 能 取得 好 的 效果 ， 以 及 不 知 如 何 有 针对 性 地 去 具体 改进 ， 而 这 有 可 能 成 为 其 前 进 过 程 中 的 阻碍 。 


2.2 ”深度 学 习 的 友 展 历程 


通过 历史 背景 了 解 深度 学 习 是 最 为 简单 的 方式 ， 谈 到 深度 学 习 的 历史 就 不 得 不 追溯 到 神经 网 络 技术 。 在 深度 学 习 崛 起 之 前 ， 神 经 网 络 曾 几 经 波折 ， 经 历 了 两 个 低谷 ， 这 两 个 低谷 也 将 神经 网 络 的 发 展 分 
为 了 三 个 不 同 的 阶段 。 本 节 将 由 历史 长 河中 的 神经 网 络 引 入 ， 介 绍 深度 学 习 的 发 展 历程 。 


2.2.1 神经 网 络 的 第 一 次 高 ; 


神经 网 络 的 第 一 次 高 潮 是 感知 机 带 来 的 。1957 年 ，Frank Rosenblatt 提 出 了 感知 机 的 概念 ， 成 为 日 后 发 展 神经 网 络 和 支持 向 量 机 (Support Vector Machine，SVM) 的 基础 。 感 知 机 是 一 种 用 算法 构 
的 “分 类 器 ” ， 是 一 种 线性 分 类 模型 ， 原 理 是 通过 不 断 试 错 以 期 寻找 一 个 合适 的 超 平面 把 数据 分 开 。1958 年 ，Rosenblatt 在 《New York Times》 上 发 表 文章 《Electronic ‘Brain’ Teaches Itself.》， 


斌 


正式 把 算法 取 名 为 “感知 器 ”， 如 图 2-3 所 示 。 


二 而 面 面 面 证 面 面 面 曾 地 
面 大 击 症 司 硬 而 面 画 ， 
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图 2-3 ”Frank Rosenblatt 和 感知 机 模型 


在 提出 感知 机 之 后 ，Rosenblatt 对 其 非常 有 自信 。 他 乐观 地 预测 ， 感 知 机 最 终 可 以 “学 习 、 做 决定 、 翻 译 语 言 ”。 各 大 投资 机 构 也 纷纷 为 他 注资 ， 美 国 海军 曾 出 资 支持 他 并 期 待 感 知 机 可 以 “自己 走 、 
说 话 、 看 、 读 、 自 我 复制 ， 甚 至 拥有 自我 意识 ”。 这 可 以 认为 是 神经 网 络 研究 的 起 源 与 第 一 次 高 潮 。 


2.2.2 ”神经 网 络 的 第 一 次 寒冬 


虽然 单 层 感 知 机 简单 且 优 雅 ， 但 它 显 然 能 力 有 限 ， 仅 能 分 类 线性 问题 ， 对 于 异 或 问题 束手无策 。 什 么 是 线性 问题 呢 ? 简单 来 说， 就 是 用 一 条 直线 将 图 形 分 割 成 两 类 。 比 如 逻辑 “或 ”和 逻辑 “与 ” 问 
题 ,我 们 可 以 用 一 条 直线 来 分 割 “0”“1”， 如 图 2-4 所 示 。 


人] Al 


图 24 逻辑 “与 ”和 过 辑 “ 或 ”的 二 维 样本 分 类 因 


1969 年 ，Marvin Minsky 在 《Perceptrons》 书 中 ， 仔 细 分 析 了 以 感知 机 为 代表 的 单 层 神 经 网 络 系统 的 功能 及 局 限 ， 证 明 感 知 机 不 能 解决 简单 的 异 或 ( 见 图 2-5) 等 线性 不 可 分 问题 ， 并 直接 地 指出 “大 
部 分 关于 感知 机 的 研究 都 是 没有 科学 价值 的 ”。 此 时 距离 感知 机 大 热 已 过 去 十 年 ， 而 人 们 过 高 的 期 待 与 感知 机 的 能 力 并 不 相符 ， 单 层 感知 机 在 这 次 打击 中 彻底 失去 了 人 们 的 追捧 。 
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图 2-5 逻辑 “ 异 或 ”的 非 线性 不 可 分 


既然 明确 了 单 层 感知 机 的 问题 在 于 无 法 解决 非 线 性 问题 ， 人 们 试图 通过 增加 隐 含 层 创造 多 层 感 知 机 ， 多 层 感知 机 结构 如 图 2-6 所 示 ， 可 以 看 出 多 层 感 知 机 的 结构 图 与 神经 网 络 非 常 相似 ， 它 就 是 最 简单 的 
前 馈 神经 网 络 。 


对 于 多 层 感 知 机 的 研究 表明 ， 随 着 隐藏 层 的 层 数 增多 ， 区 域 可 以 形成 任意 的 形状 ， 因 此 可 以 解决 任何 复杂 的 分 类 问题 。 实 际 上 ， 前 苏联 数学 家 Kolmogorov 指 出 : 双 隐 层 感 知 器 就 足以 解决 任何 复杂 的 
分 类 问题 。 虽 然 多 层 感 知 机 确实 是 非常 理想 的 分 类 器 ， 但 是 问题 也 随 之 而 来 : 隐藏 层 的 权 值 怎么 训练 ? 对 于 各 隐 层 的 节点 来 说 ， 它 们 并 不 存在 期 望 输 出 ， 所 以 也 无 法 通过 感知 机 的 学 习 规 则 来 训练 多 层 感知 
机 ， 人 们 一 直 没 能 找到 可 靠 的 学 习 算 法 来 解决 这 一 问题 。Marvin Minsky 对 感知 机 的 大 肆 批 评 和 感知 机 无 法 突破 的 瓶 天 ,使 人 工 神经 网 络 的 发 展 进 入 了 第 一 个 低谷 。 


=—*@ —| | | 一 一 ( )— 0 
V 
XK.XW. .. 


-Oo 0 


输入 层 障 层 输出 层 


图 2-6 ”多 层 感 知 机 


2.2.3 ”神经 网 络 的 第 二 次 高 ; 


直到 反 向 传播 算法 (BP 算法 ) 被 提出 ， 才 真正 解决 了 感知 机 的 局 限 性 ， 再 一 次 将 神经 网 络 带 向 高 潮 。 当 神经 网 络 进 入 第 一 次 低谷 的 时 候 ，Geoffrey Hinton 刚 刚 获 得 了 心理 学 的 学 士 学 位 ， 准 备 读 研 究 
生 。 凭 借 着 对 脑 科 学 的 着 迷 ， 他 将 人 工 智能 作为 自己 的 研究 方向 ， 并 决定 继续 攻读 博士 学 位 。1982 年 ， 加 州 理工 的 生物 物理 学 家 John Hopfield 提 出 了 一 种 反馈 型 神经 网 络 (Hopfile 网 络 ) ， 这 一 网 络 成 果 
解决 了 一 些 识 别 和 约束 优化 的 问题 ， 振 奋 了 神经 网 络 领域 的 研究 者 。 终 于 ， 在 1986 年 ，Hinton 和 David Rumelhart 合 作 在 《自然 》 杂 志 上 发 表 了 论文 《Learning Representations by Back-Propagating 
Errors》， 第 一 次 系统 简洁 地 阐述 了 反 向 传播 算法 (BP 算法 ) 在 神经 网 络 模 型 上 的 应 用 。 这 一 算法 通过 在 神经 网 络 里 增加 一 个 所 谓 的 隐 层 (Hidden Layer) ， 解 决 了 感知 机 无 法 实现 异 或 分 类 的 难题 。 使 用 
了 反 向 传播 算法 的 神经 网 络 ， 在 做 诸如 形状 识别 之 类 的 简单 工作 时 ,效率 大 大 地 提高 了 。 加 之 计算 机 运行 速度 的 提高 ， 使 一 层 以 上 的 神经 网 络 进入 了 实用 阶段 。T.J.Sejnowski 和 和 C.R.Rcsenberg 基 于 BP 神经 
网 络 做 了 一 个 英语 课文 阅读 学 习 机 的 实验 ， 机 器 成 功 学 习 了 26 个 英文 字母 的 发 音 ， 并 输出 连接 到 语音 合成 装置 ， 有 力 地 证 明了 BP 神经 网 络 具备 很 强 的 学 习 能 力 ， 使 神经 网 络 的 研究 重新 得 到 社会 的 关注 。 


2.2.4 神经 网 络 的 第 二 次 寒冬 


神经 网 络 的 第 二 次 高 潮 期 持续 了 很 长 时 间 ， 在 这 期 间 研 究 人 员 不 断 寻 找 BP 网 络 的 应 用 场景 ， 深 度 学 习 也 在 这 一 时 期 开始 萌芽 。1989 年 ，Yann LeCun 发 表 了 论文 《 反 向 传播 算法 在 手写 邮政 编码 识别 上 
的 应 用 》。 他 用 美国 邮政 系统 提供 的 近 万 个 手写 数字 的 样本 来 培训 神经 网 络 系统 ， 培 训 好 的 系统 在 独立 的 测试 样本 中 ， 错 误 率 只 有 5%。 后 来 ， 他 基于 BP 算法 提出 了 第 一 个 真正 意义 上 的 深度 学 习 ， 也 是 目 
前 深度 学 习 中 应 用 最 广 的 神经 网 络 结构 一 一 卷 积 神经 网 络 (CNN) ， 开 发 出 了 商业 软件 用 于 读 取 银 行 支票 上 的 手写 数字 ， 这 个 支票 识别 系统 在 20 世 纪 90 年 代 末 占据 了 美国 将 近 20% 的 市 场 。 


虽然 BP 算 法 将 神经 网 络 带 入 了 实用 阶段 ， 但 当时 的 神经 网 络 仍 存在 很 多 缺陷 。 首 先是 浅 层 的 限制 问题 ， 人 们 发 现 神经 网 络 中 越 远离 输出 层 的 参数 越 难以 被 训练 ， 且 层 数 越 多 问题 越 明 显 ， 称 为 “梯度 爆 
炸 ” 问 题 。 另 外 ， 在 当时 计算 资源 不 足 的 情况 下 ， 数 据 集 都 很 小 ， 无 法 满足 训练 深层 网 络 的 要 求 。 正 当 神 经 网 络 的 发 展 速 度 逐 渐 放 缓 时， 传统 的 机 器 学 习 算 法 取得 了 突破 性 的 进展 。 在 贝尔 实验 室 里 ，Yann 
LeCun 的 同事 Vladimir Vapnik 一 直 致 力 于 研究 支持 向 量 机 (SVM) 算法 。 这 种 分 类 算法 除了 可 以 进行 基本 的 线性 分 类 外 ， 在 数据 样本 线性 不 可 分 的 情况 下 ， 可 以 使 用 一 种 “ 核 机 制 ” 的 非 线 性 映射 算法 ， 
将 线性 不 可 分 的 样本 转化 到 高 位 特征 空间 中 ， 使 其 样本 可 分 。1998 年 ， 这 一 算法 在 手写 邮政 编码 的 问题 上 将 错误 率 降 到 低 于 0.8% ， 远 远 超过 了 同期 神经 网 络 算法 的 表现 ， 迅 速成 为 了 研究 的 主流 。 较 之 于 
SVM 算法 ， 神 经 网 络 的 理论 基础 不 清晰 等 缺点 更 加 凸显 ， 就 这 样 ， 神 经 网 络 进 入 了 第 二 次 寒冬 。 


2.2.5 ”深度 学 习 的 来 临 
纵使 神经 网 络 又 一 次 进入 了 寒冬 ， 社 会 对 这 一 领域 也 仿佛 彻底 失去 了 耐心 ， 投 资 公司 将 视线 纷纷 转移 到 其 他 领域 ， 甚 至 与 神经 网 络 相关 的 文章 展 懂 被 拒 ， 但 Hinton 等 人 依然 没有 放弃 。 直 至 2006 

年 ，Hinton 发 表 了 一 篇 突破 性 的 文章 《A Fast Learning Algorithm for Deep Belif Nets》， 在 这 篇 论文 里 ，Hinton 介 绍 了 一 种 成 功 训练 多 层 神 经 网 络 的 办 法 ， 他 将 这 种 神经 网 络 称 为 深度 信念 网 络 。 深 度 

言 念 网 络 一 推出 ， 立 刻 在 效果 上 打败 了 SVM ， 这 使 许多 研究 者 重新 将 目光 转 回 到 神经 网 络 。 这 篇 论文 中 对 深度 信念 网 络 的 提出 以 及 对 模型 训练 方法 的 改进 打破 了 BP 神 经 网 络 发 展 的 瓶颈 。Hinton 提 出 了 两 

个 观点 : @@ 多 层 人 工 神 经 网 络 模型 有 很 强 的 特征 学 习 能 力 ， 深 度 学 习 模 型 得 到 的 特征 数据 对 原始 数据 有 更 本 质 的 代表 性 ， 这 将 大 大 便于 分 类 和 可 视 化 问题 ; @ 对 于 深度 神经 网 络 很 难 训练 达到 最 优 的 问题 ， 

可 以 采用 逐 层 训练 方法 解决 ， 将 上 层 训练 好 的 结果 作为 下 层 训练 过 程 中 的 初始 化 参数 。 由 此 ， 神 经 网 络 实现 了 最 新 的 一 次 突破 一 一 深度 学 习 ， 从 目前 的 研究 成 果 来 看 ， 只 要 数据 足够 大 、 隐 藏 层 足够 深 ， 即 

便 不 加 预 处 理 ， 深 度 学 习 也 可 以 取得 较 好 的 成 果 ， 反 映 了 大 数据 与 深度 学 习 相辅相成 的 内 在 关系 。 


2.2.6 ”深度 学 习 崛 起 的 时 代 背 景 


深度 学 习 的 诞生 伴随 着 更 优化 的 算法 、 更 高 性 能 的 计算 能 力 (GPU) 和 更 大 数据 集 的 时 代 背 景 ， 使 得 它 一 出 现 就 引起 了 巨大 的 龙 动 。 首 先 要 提 到 的 就 是 算法 的 优化 ， 以 Hinton 在 2006 年 提出 了 深度 信念 
网 络 成 功 训练 了 多 层 神 经 网 络 为 起 点 ， 后 来 的 研究 人 员 在 这 一 领域 不 断 开拓 创新 ， 提 出 了 越 来 越 优秀 的 模型 ， 并 把 它 应 用 到 了 各 个 场景 ， 具 体 的 应 用 实例 将 在 2.3 节 展开 介绍 。 深 度 学 习 崛 起 的 另 一 条 件 是 强 
大 计算 能 力 的 出 现 ， 以 前 提 到 高 性 能 计算 人 们 能 想到 的 都 是 CPU 集群 ， 现 在 进行 深度 学 习 研究 使 用 的 都 是 GPU， 使 用 GPU 集群 可 以 将 原来 一 个 月 才能 训练 出 的 网 络 ， 加 速 到 几 个 小 时 ， 时 间 上 的 大 幅 缩短 使 
得 研究 人 员 训 练 了 大 量 的 网 络 。 除 了 硬件 飞速 发 展 为 其 提供 了 条 件 外 ， 深 度 学 习 还 得 到 了 充分 的 燃料 : 大 数据 。 相 较 传统 的 神经 网 络 ， 尽 管 在 算法 上 我 们 确实 简化 了 深度 架构 的 训练 ， 但 最 重要 的 进展 是 我 
们 有 了 成 功 训 练 这 些 算法 所 需 的 资源 。 可 以 说 人 工 智 能 只 有 在 数据 的 驱动 下 ， 才 能 实现 深度 学 习 ， 不 断 迭 代 模 型 ， 变 得 越 来 越 智能 。 因 此 想 要 持续 发 展 深度 学 习 技 术 ， 算 法 、 硬 件 和 大 数据 缺 一 不 可 ， 切 不 
可 顾此失彼 。 


2.3 ”深度 学 习 的 应 用 场景 


在 这 一 股 Al 热 潮 下 ， 深 度 学 习 极 大 地 促进 了 机 器 学 习 的 发 展 ， 受 到 了 世界 各 国 相关 领域 研究 人 员 和 高 科技 公司 的 重视 ， 图 像 、 语 音 和 自然 语言 处 理 是 三 个 深度 学 习 算法 应 用 最 广泛 的 研究 领域 ， 在 人 工 
智能 被 提出 半 个 世纪 之 后 ， 人 们 终于 看 到 了 进入 应 用 阶段 的 电光。 如 今 ， 深 度 学 习 在 很 多 领域 都 有 出 色 的 表现 ， 本 节 我 们 主要 介绍 图 像 、 语 音 、 自 然 语 言 处 理 和 个 性 化 推荐 场景 下 的 应 用 ， 但 我 们 应 该 知道 


深度 学 习 涉 及 的 领域 远 不 止 这 些 。 


2.3.1 图 像 与 视觉 


深度 学 习 最 早 尝 试 的 领域 是 图 像 与 视觉 处 理 。2.2.4 节 中 曾经 提 到 ，Yann LeCun 和 他 的 同事 在 1989 年 提出 了 第 一 个 深度 学 习 模 型 一 一 卷 积 神经 网 络 (CNN) ， 在 识别 手写 邮政 编码 的 应 用 上 有 出 色 的 表 
现 。 然 而 当时 的 CNN 只 适用 于 小 尺度 的 图 像 ， 一 旦 像素 数 很 大 就 无 法 取得 理想 结果 。 这 使 CNN 未 能 在 机 器 视觉 领域 得 到 足够 重视 。2012 年 10 月 ，Hinton 教 授 和 他 的 学 生 采 用 了 更 深层 的 卷 积 神经 网 络 ， 将 
ImageNet 图 像 分 类 的 错误 率 大 幅 下 降 到 了 16%。 在 此 之 前 ， 传 统 的 机 器 学 习 算法 在 ImageNet 数 据 集 上 最 低 的 TOP5 错 误 率 为 26%。 这 主要 是 因为 Hinton 教 授 对 算法 进行 了 改进 ， 在 网 络 的 训练 中 引入 了 权 
重 衰减 的 概念 ， 有 效 地 减 小 权重 幅度 ， 防 止 网 络 过 拟 合 。 更 关键 的 是 计算 机 计算 能 力 的 提升 ，GPU 加 速 技术 的 发 展 ， 使 得 在 训练 过 程 中 可 以 产生 更 多 的 训练 数据 ， 使 网 络 能 够 更 好 地 拟 合 训练 数据 。 到 了 
2013 年 ，ImageNet 比 赛 中 排名 前 20 的 算法 都 使 用 了 深度 学 习 ， 而 2013 年 之 后 基本 就 只 有 深度 学 习 算 法 参赛 了 。 深 度 学 习 终于 在 图 像 与 视觉 领域 取得 了 绝对 优势 。 


近 几 年 国内 各 大 互联 网 公司 均 将 相关 最 新 技术 成 功 应 用 到 人 脸 识别 和 自然 图 像 识别 问题 ， 并 推出 相应 的 产品 。 现 在 的 深度 学 习 网 络 模型 已 经 能 够 理解 和 识别 一 般 的 自然 图 像 。 深 度 学 习 模 型 不 仅 大 幅 提 
高 了 图 像 识 别 的 精度 ， 同 时 也 避免 了 消耗 大 量 时 间 进 行人 工 特征 的 提取 ， 使 得 在 线 运行 效率 大 大 提升 。 基 于 深度 学 习 的 图 像 识别 技术 充斥 了 我 们 的 生活 ， 安 检 时 的 人 脸 识别 、 以 图 搜 图 技术 ， 以 及 现在 深 受 
关注 的 无 人 驾驶 等 ， 使 我 们 的 生活 越 来 越 便 利 ， 将 来 这 一 技术 或 许可 以 被 应 用 到 更 多 领域 。 在 本 书 的 第 6 章 也 针对 图 像 与 视觉 领域 做 了 更 加 细致 的 介绍 。 


2.3.2 ”语音 识别 


虽然 图 像 识别 是 深度 学 习 最 先 尝试 的 领域 ， 但 语音 识别 却 最 先 取得 了 成 功 。2009 年 ， 深 度 学 习 的 概念 被 引入 了 语音 识别 领域 ,2011 年 ， 微 软 研 究 院 的 邓 立 、 俞 栋 和 Hinton 合 作 的 产品 发 布 ， 使 用 深度 
学 习 技术 击败 了 传统 的 高 斯 混合 模型 (GMM) ， 取 得 了 不 错 的 结果 。2012 年 谷歌 的 语音 识别 模型 已 经 全 部 由 GMM 模 型 更 换 成 深度 学 习 模 型 ， 并 成 功 将 谷歌 的 语音 识别 错误 率 降低 了 20%， 这 改变 幅度 超 
过 了 过 去 很 多 年 的 总 和 。 这 一 巨大 突破 主要 是 因为 高 斯 混合 模型 是 一 种 浅 层 学 习 网 络 模型 ， 其 建 模 数据 特征 维 数 较 小 ， 特 征 的 状态 空间 分 布 和 特征 之 间 的 相关 性 不 能 够 被 充分 摘 述 。 采 用 深度 神经 网 络 后 ， 
可 以 自动 在 数据 中 提取 更 复杂 且 有 效 的 特征 ， 样 本 数据 特征 间 相 关 性 信息 得 以 充分 表示 ， 将 连续 的 特征 信息 结合 构成 高 维特 征 ， 通 过 高 维特 征 样本 对 深度 神经 网 络 模型 进行 训练 。 


自从 发 现 了 深度 学 习 在 语音 识别 方面 的 出 色 表现 ， 各 大 公司 纷纷 开始 了 新 产品 的 研发 。 苹 果 公司 Siri 系 统 的 语音 输入 功能 ， 支 持 包括 中 文 在 内 的 20 多 种 语言 。 微 软 公 司 也 基于 深度 学 习 开 发 出 了 同 声 传译 
系统 ， 实 现 了 巨大 的 技术 突破 。 国 内 的 公司 也 在 不 停 地 做 着 技术 突破 ，2016 年 ， 百 度 语 音 识 别 准 确 率 高 达 97%， 并 被 美国 权威 科技 杂志 《 麻 省 理工 评论 》 列 为 2016 年 十 大 突破 技术 之 一 。 


2.3.3 ”自然 语言 处 理 


自然 语言 处 理 是 深度 学 习 在 除了 语音 和 图 像 处 理 之 外 的 另 一 个 重要 的 应 用 领域 。 起 初 由 于 人 类 语言 的 复杂 度 很 高 ， 机 器 很 难 对 语义 进行 刻画 ， 因 此 自然 语言 处 理 领 域 取得 的 成 果 一 直 未 能 与 图 像 和 语音 
识别 方向 比肩 。2016 年 是 深度 学 习 大 潮 冲击 自然 语言 处 理 的 一 年 ， 经 过 了 这 一 年 的 努力 ， 深 度 学 习 逐 渐 在 自然 语言 处 理 领 域 站 稳 了 脚跟 。 深 度 学 习 在 自然 语言 处 理 领 域 的 应 用 主要 有 : 情感 分 析 、 文 本 生 
成 、 语 言 翻 译 、 聊 天 机 器 人 等 。 上 文 曾 提 到 同 声 传 译 技术 取得 了 巨大 突破 ， 这 一 成 就 正 是 依赖 于 自然 语言 处 理 与 语音 识别 的 交互 作用 。 微 软 甚至 还 推出 了 可 以 自己 写 诗 的 程序 ， 通 过 “阅读 ”大 量 的 诗集 ， 
学 会 了 自己 写 诗 ， 甚 至 逐渐 形成 了 自己 的 文风 。 在 不 久 的 将 来 ， 以 深度 学 习 为 基础 的 自然 语言 处 理 ， 一 定 会 为 我 们 带 来 更 大 的 惊喜 。 


2.3.4 个 性 化 推荐 


个 性 化 推荐 可 以 说 是 大 数据 和 深度 学 习 时 代 的 重要 产物 。 当 今 时 代 ， 互 联网 规模 迅速 扩大 ， 海 量 信息 “ 胡 炸 ” 你 的 大 脑 ; 电子 商务 产业 不 断 发 展 ， 干 万 种 商品 让 你 应 接 不 暇 。 面 对 日 益 严 重 的 信息 超载 
问题 ， 获 取 有 价值 信息 的 成 本 大 大 增加 ， 人 们 迫切 希望 能 够 获取 到 自己 感 兴趣 的 信息 和 商品 ， 推 荐 系统 应 运 而 生 。 


传统 的 推荐 类 型 有 基于 内 容 过 滤 推 荐 和 协同 过 滤 推荐 等 ， 然 而 它们 在 不 同 应 用 场景 下 都 存在 一 定 的 局 限 性 。 基 于 内 容 推荐 主要 为 用 户 推荐 其 感 兴趣 商品 的 相似 商品 ， 缺 少 用 户 评价 信息 的 利用 ， 并 且 不 
能 有 效 为 新 用 户 推荐 。 协 同 过 渡 推 荐 计算 目标 用 户 与 其 他 用 户 的 相似 度 ， 主 要 预测 目标 用 户 对 特定 商品 的 喜好 程度 ， 可 以 为 用 户 推荐 其 未 见 过 的 产品 ， 然 而 对 于 历史 数据 稀 琉 的 用 户 一 样 难以 起 到 作用 .。 


个 性 化 推荐 系统 ， 它 是 高 级 的 、 智 能 的 信息 过 滤 系 统 ， 它 的 应 用 范围 很 广 ， 搜 索 网 页 精准 的 Feed 流 推荐 ， 电 商 平台 、 音 乐 网 站 的 推荐 都 是 个 性 化 推荐 系统 的 实际 应 用 案例 。 推 荐 系统 通过 对 用 户 行为 和 
商品 属性 进行 分 析 、 挖 掘 ， 发 现 用 户 的 个 性 化 需求 与 兴趣 特点 ， 将 用 户 可 能 感 兴趣 的 信息 或 商品 推荐 给 用 户 。 推 荐 系统 不 同 于 搜索 引擎 根据 用 户 需 求 被 动 返回 信息 的 运行 过 程 ， 它 是 根据 用 户 历 史 行 为 主动 
为 用 户 提供 精准 的 推荐 信息 。 


随 着 深度 学 习 的 逐渐 成 熟 ， 越 来 越 多 的 人 希望 把 深度 学 习 引 入 CTR (Click-Through-Rate， 点 击 通 过 率 ) 预 估 领域 ， 通 过 对 CTR 的 预 佑 来 衡量 推荐 效果 的 好 坏 。 将 深度 学 习 技术 应 用 于 CTR 预 估 ， 可 以 
为 搜索 引擎 提供 更 合理 的 广告 排序 机 制 ， 从 而 使 得 收益 最 大 的 广告 能 够 获得 更 高 频次 的 展示 ， 最 终 使 得 广告 平台 利益 最 大 化 。 关 于 CTR 预 估 的 具体 细节 内 容 ， 将 在 本 书 的 第 9 章 展开 介绍 。 


2.4 ”常见 的 深度 学 习 网 络 结 构 


深度 学 习 可 以 应 用 在 各 大 领域 中 ， 根 据 应 用 情况 不 同 ， 深 度 神 经 网 络 的 形态 也 各 不 相同 。 常 见 的 深度 学 习 模 型 主要 有 全 连接 网 络 结构 (Full Connected，FC) 、 卷 积 神经 网 络 (Convolutional Neural 
Network，CNN) 和 循环 神经 网 络 (Recurrent Neural Network，RNN) 。 它 们 均 有 自身 的 特点 ， 在 不 同 的 场景 中 发 挥 着 重要 作用 。 本 节 将 为 读者 介绍 三 种 模型 的 基本 概念 以 及 它们 各 自 适 应 的 场景 。 


2.4.1 全 连接 网 络 结构 


全 连接 网 络 结构 (FC) 是 最 基本 的 神经 网 络 /深度 神经 网 络 层 ， 它 认为 每 一 层 的 输入 都 与 上 一 层 的 输出 有 关 。 全 连接 层 在 早期 主要 用 于 对 提取 的 特征 进行 分 类 ， 然 而 由 于 全 连接 层 所 有 的 输出 与 输入 都 
是 相连 的 ， 一 般 全 连接 层 的 参数 是 最 多 的 ， 这 需要 相当 数量 的 存储 和 计算 空间 。 参 数 的 元 余 问 题 使 单纯 的 FC 组 成 的 常规 神经 网 络 很 少 会 被 应 用 到 较为 复杂 的 场景 中 。FC 大 多 作为 卷 积 神经 网 络 的 “防火 
墙 ”， 当 训练 集 与 测试 集 有 较 大 差异 时 ， 保 证 较 大 的 模型 有 良好 的 迁移 能 力 。 常 规 神经 网 络 一 般 用 于 依赖 所 有 特征 的 简单 场景 ， 比 如 本 章 后 面 提 到 的 房价 预测 模型 和 在 线 广告 推荐 模型 使 用 的 都 是 相对 标准 
的 全 连接 神经 网 络 。FC 组 成 的 常规 神经 网 络 的 具体 形式 如 图 2-7 所 示 。 


图 2-7 常规 的 神经 网 络 


2.4.2 ” 卷 积 神经 网 络 


卷 积 神经 网 络 (CNN) 是 一 种 专门 用 来 处 理 具有 类 似 网 格 结构 的 数据 的 神经 网 络 ， 例 如 图 像 数 据 (可 以 看 作 二 维 的 像素 网 格 ) 。 它 与 FC 不 同 的 地 方 在 于 ，CNN 的 上 下 层 神 经 元 并 不 都 能 直接 连接 ， 而 
是 通过 “ 卷 积 核 ” 作 为 中 介 ， 通过“ 核 ”的 共享 大 大 减少 了 隐 合 层 的 参数 。 简 单 的 CNN 是 一 系列 层 ， 并 且 每 个 层 都 通过 一 个 可 微 浮 数 将 一 个 量 转 化 为 男 一 个 量 ， 通 常用 三 个 主要 类 型 的 层 去 构建 CNN 结 构 ， 


包括 卷 积 层 (Convolutional Layer) 、 池 化 层 (Pooling Layer) 和 全 连接 层 (FC) 。 卷 积 网 络 在 诸多 应 用 领域 有 很 好 的 应 用 效果 ， 特 别 是 在 大 型 图 像 处 理 的 场景 表现 格外 出 色 。 图 2-8 展 示 了 CNN 的 结构 
形式 ， 一 个 神经 元 以 三 维 排列 组 成 卷 积 神经 网 络 (宽度 (Width) ,高度 (Height) 和 深度 (Channel) ) ， 如 其 中 一 个 层 展示 得 那样 ，CNN 的 每 一 层 都 将 3D 的 输入 量 转化 成 3D 的 输出 量 。 关 于 卷 积 神经 
网 络 的 具体 介绍 会 在 本 书 第 6 章 展开 。 
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图 2-8 CNN 网 络 结构 


2.4.3 ”循环 神经 网 络 


循环 神经 网 络 (RNN) 也 是 常用 的 深度 学 习 模 型 之 一 (如 图 2-9 所 示 ) ， 就 像 CNN 是 专门 用 于 处 理 网 格 化 数据 (如 一 个 图 像 ) 的 神经 网 络 一 样 ，RNN 是 一 种 用 于 处 理 序列 数据 的 神经 网 络 。 例 如 音频 中 
含有 时 间 成 分 ， 因 此 音频 可 以 被 表示 为 一 维 时 间 序 列 ;语言 中 的 单词 都 是 逐个 出 现 的 ， 因 此 语言 的 表示 方式 也 是 序列 数据 。RNN 在 机 器 翻译 、 语 音 识 别 等 领域 中 均 有 非常 好 的 表现 。 


A 


图 2-9 简单 的 RNN 网 络 结构 


2.5 ”机 器 学 习 回 顾 


在 了 解 了 深度 学 习 的 概念 和 历史 之 后 ， 本 节 期 望 以 机 器 学 习 中 最 简单 的 线性 回归 为 例 ， 借 用 PaddlePaddle 平 台 实现 这 一 模型 ， 带 领 读者 回顾 机 器 学 习 中 的 若干 重要 概念 ， 这 些 概 念 对 于 深度 学 习 同 样 适 
用 。 同 时 希望 通过 本 节 的 编程 练习 ， 让 读者 接触 和 体验 PaddlePaddle 深 度 学 习 框 架 ， 便 于 之 后 章节 的 进一步 学 习 。 


在 2.1.2 节 中 曾 介绍 过 机 器 学 习 的 定义 ， 本 节 从 构造 模型 的 角度 将 机 器 学 习 理解 为 : 从 数据 中 产生 模型 的 过 程 。 在 正式 介绍 具体 算法 前 ， 首 先 给 出 机 器 学 习 的 典型 过 程 ， 如 图 2-10 所 示 。 


前 入 数据 


机 器 学 习 方法 


估计 函数 y 预测 结果 


图 2-10 ”机 器 学 习 过 程 


输入 训练 数据 ， 利 用 特定 的 机 器 学 习 方 法 建立 估计 函数 。 得 到 遂 数 后 向 这 一 模型 输入 测试 数据 ， 通 数 有 能 力 对 没有 见 过 的 数据 进行 正确 估计 ， 这 就 是 机 器 学 习 的 过 程 。 


2.5.1 线性 回归 的 基本 概念 


线性 回归 是 机 器 学 习 中 最 简单 也 是 最 重要 的 模型 之 一 ， 其 模型 建立 同样 遵循 图 2-10 所 示 的 流程 : 获取 数据 、 数 据 预 处 理 、 训 练 模 型 、 应 用 模型 。 回 归 模型 可 以 理解 为 : 存在 一 个 点 集 ， 用 一 条 曲线 去 拟 
合 它 分 布 的 过 程 。 如 果 拟 合 曲线 是 一 条 直线 ， 则 称 为 线性 回归 。 如 果 是 一 条 二 次 曲线 ， 则 称 为 二 次 回归 。 线 性 回归 是 回归 模型 中 最 简单 的 一 种 。 


在 线性 回归 中 有 几 个 基本 的 概念 需要 掌握 : 假设 国 数 (Hypothesis Function) 、 损 失 函 数 (Loss Function) 和 优化 算法 (Optimization Algorithm) 。 
假设 函数 是 指 ， 用 数学 的 方法 描述 自 变 量 和 因 变 量 之 间 的 关系 ， 它 们 之 间 可 以 是 一 个 线性 函数 或 非 线 性 函数 。 


损失 函数 是 指 ， 用 数学 的 方法 衡量 假设 函数 预测 结果 与 真实 值 之 间 的 误差 。 这 个 差距 越 小 预测 越 准确 ， 而 算法 的 任务 就 是 使 这 个 差距 越 来 越 小 。 对 于 某 个 具体 样本 (x) ，y() ) ， 算 法 通过 不 断 调整 
参数 值 w 和 b， 最 终 使 得 预测 值 和 真实 值 尽 可 能 相似 ， 即 了 () xy() 。 整 个 训练 的 过 程 可 以 表述 为 通过 调整 参数 值 w 和 b 最 小 化 损失 函数 。 因 此 ， 损 失 函 数 也 是 衡量 算法 优良 性 的 方法 。 这 里 涉及 两 个 值 : 
预测 值 和 真实 值 。 预 测 值 是 算法 给 出 的 值 (用 来 表示 概率 ) 。 而 真实 值 是 训练 集中 预先 包含 的 ， 是 事先 准备 好 的 。 形 式 上 ， 可 以 表示 为 : 


{(x'), y' ,), (x™, yy), 9 x yp) 


其 中 ，x() 表示 属于 第 个 样本 的 特征 向 量 ，y〈) 表示 属于 第 i 个 样本 的 分 类 标签 ， 也 就 是 真实 值 。 损 失 函 数 的 选择 需要 具体 问题 具体 分 析 ， 在 不 同 问题 场景 下 采用 不 同 的 函数 。 通 常情 况 下 ， 会 将 损失 
国 数 定 义 为 平方 损失 函数 (Quadratic Loss Function) 。 在 本 次 线性 回归 中 ， 使 用 的 是 均 方差 (Mean Squared Error) 来 衡量 ， 当 然 还 有 许多 其 他 方法 ， 例 如 神经 网 络 模型 中 可 以 使 用 交叉 粹 作为 损失 浮 
数 ， 在 后 面 的 章节 会 一 一 提 到 。 


在 模型 训练 中 优化 算法 也 是 至 关 重 要 的 ， 它 决定 了 一 个 模型 的 精度 和 运算 速度 。 本 章 的 线性 回归 实例 中 主要 使 用 了 梯度 下 降 法 进行 优化 。 梯 度 下 降 是 深度 学 习 中 非常 重要 的 概念 ， 值 得 庆 笠 的 是 它 也 十 
分 容易 理解 。 损 失 阔 数 」】 (w，b) 可 以 理解 为 变量 w 和 b 的 函数 。 观 察 图 2-11， 垂 直 轴 表 示 损 失 函 数 的 值 ， 两 个 水 平 轴 分 别 表示 变量 w 和 b。 实 际 上 ，w 可 能 是 更 高 维 的 向 量 ， 但 是 为 了 方便 说 明 ， 在 这 里 假设 
w 和 b 都 是 一 个 实数 向 量 。 算 法 的 最 终 目标 是 找到 损失 函数 」 (w，b) 的 最 小 值 。 而 这 个 寻找 过 程 就 是 不 断 微调 变量 w 和 b 的 值 ， 一 步 一 步 地 试 出 这 个 最 小 值 。 而 试 的 方法 就 是 沿 着 梯度 方向 逐步 移动 。 本 例 
中 让 图 2-11 中 的 圆 点 表示 上 」(w，b) 的 某 个 值 ， 那 么 梯度 下 降 就 是 让 圆 点 沿 着 曲面 下 降 ， 直 到 」(w，b) 取 到 最 小 值 或 远近 最 小 值 。 


图 2-11 梯度 下 降 示 意图 


应 用 梯度 下 降 算 法 ， 首 先 需要 初始 化 参数 w 和 b。 一 般 情 况 下 ， 深 度 学 习 模型 中 的 w 和 b 应 该 初始 化 为 一 个 很 小 的 数 ， 逼 近 0 但 是 非 0。 因 为 (w，b) 是 凸 函数 ， 所 以 无 论 初始 化 在 曲面 上 的 哪 一 点 ， 最 
终 都 会 收敛 到 同一 点 或 者 相近 的 点 。 


一 旦 初始 化 好 w 和 b 之 后 ， 就 可 以 开始 迭代 过 程 了 。 所 谓 迭 代 过 程 就 是 从 初始 点 沿 着 曲面 朝 着 下 降 最 快 的 方向 一 步 一 步 地 移动 。 经 过 多 次 迭代 ， 最 终 收 敛 到 全 局 最 优 解 或 者 接近 全 局 最 优 解 。 


为 了 简化 说 明 ， 将 参数 b 暂 时 去 掉 ， 只 考虑 参数 w， 这 时 损失 函数 变 为 | (w) 。 整 个 梯度 下 降 过 程 可 以 表示 为 重复 如 下 步骤 : 


[ 


即 重复 对 参数 w 进 行 更 新 操作 ， 其 中 ao 表示 学 习 率 。 学 习 率 也 是 深度 学 习 中 的 一 个 重要 概念 。 学 习 率 可 以 理解 为 每 次 进 代 时 圆 点 移动 的 步 长 ， 它 决定 了 梯度 下 降 的 速率 和 稳定 性 。 需 要 注意 的 是 ， 在 编码 


0 
—J(w, 
的 过 程 中 ， 为 了 方便 书写 和 代码 实现 时 更 标准 的 命名 变量 ， 通 常 使 用 dw 来 表示 3% (”)， 其 意义 不 变 。 这 样 原 式 就 可 以 表示 为 : 


! 


通过 不 断 对 参数 w 进 行 和 迭代 更 新 ， 最 终 得 到 全 局 最 优 解 或 接近 全 局 最 优 解 ， 使 得 损失 函数 (w，b) 取得 最 小 值 。 本 章 学 习 过 线性 回归 中 的 梯度 下 降 后 ， 在 第 3 章 中 将 讨论 在 Logistic 回 归 中 如 何 使 用 梯 
度 下 降 算 法 。 


2.5.2 ”数据 处 理 


用 线性 回归 模型 预测 目标 的 第 一 步 是 进行 数据 处 理 ， 本 节 将 以 预测 房价 为 背景 ， 介 绍 这 一 过 程 。 当 收集 到 真实 数据 后 ， 往 往 不 能 直接 使 用 。 例 如 本 次 数据 集 使 用 了 某 地 区 的 房价 分 布 ， 为 了 简化 模型 数 
据 只 有 两 维 ， 分别 是 房屋 面积 与 房屋 价格 。 可 以 看 到 房价 与 房屋 面积 之 间 存 在 一 种 关系 ， 这 种 关系 究竟 是 什么 ， 就 是 本 次 预测 想 要 得 到 的 结论 。 可 以 首先 输出 数据 的 前 五 行 看 一 下 ， 如 图 2-12 所 示 。 


房价 
599.0 
450.0 


440.0 
780.0 
450.0 


图 2-12 房价 数据 


一 般 拿 到 一 组 数据 后 ， 第 一 个 要 处 理 的 是 数据 类 型 不 同 的 问题 。 如 果 各 维 属 性 中 有 离散 值 和 连续 值 ， 就 必须 对 离散 值 进行 处 理 。 


离散 值 哩 然 也 常 使 用 类 似 0、1、2 这 样 的 数字 表示 ， 但 是 其 合 义 与 连续 值 是 不 同 的 ， 因 为 这 里 的 差 值 没有 实际 意义 。 例 如 ,我们 用 0、1、2 来 分 别 表示 红色 、 绿 色 和 蓝 色 的 话 ， 我 们 并 不 能 因此 说 “ 蓝 
和 红色 ” 比 “绿色 和 红色 ”的 距离 更 远 。 通 常 对 有 d 个 可 能 取 值 的 离散 属性 ， 我 们 会 将 它们 转 为 d 个 取 值 为 0 或 1 的 二 值 属性 或 者 将 每 个 可 能 取 值 映射 为 一 个 多 维 向 量 。 不 过 就 这 里 而 言 ， 数 据 中 没有 离散 值 ， 
就 不 用 考虑 这 个 问题 了 。 


接 下 来 就 是 要 对 数据 进行 归 一 化 。 一 般 而 言 ， 如 果 样本 有 多 个 属性 ， 那 么 各 维 属 性 的 取 值 范围 差异 会 很 大 ， 这 就 要 用 到 一 个 常见 的 操作 一 一 归 一 化 (Mormalization) 了 。 归 一 化 的 目标 是 把 各 维 属性 


的 取 值 范围 放 缩 到 差不多 的 区 间 ， 例 如 [-0.5，0.5]。 这 里 我 们 使 用 一 种 很 常见 的 操作 方法 : 减 掉 均值 ， 然 后 除 以 原 取 值 范围 。 
虽然 本 次 房价 预测 模型 中 ， 输 入 属性 只 有 房屋 面积 ， 不 存在 取 值 范围 差异 问题 ， 但 由 于 归 一 化 的 各 种 优点 ， 我 们 仍 选择 对 其 进行 归 一 化 操作 。 


基本 上 所 有 的 数据 在 拿 到 后 都 必须 进行 归 一 化 ， 至 少 有 以 下 3 条 原因 : 

1) 过 大 或 过 小 的 数值 范围 会 导致 计算 时 的 浮 点 上 溢 或 下 浇 。 

2) 不 同 的 数值 范围 会 导致 不 同属 性 对 模型 的 重要 性 不 同 (至 少 在 训练 的 初始 阶段 如 此 ) ， 而 这 个 隐 合 的 假设 常常 是 不 合理 的 。 这 会 对 优化 的 过 程 造成 困难 ,使 训练 时 间 大 大 加 长 。 
3) 很 多 机 器 学 习 技 巧 /模型 (例如 L1，L2 正 则 项 ， 向 量 空间 模型 -Vector Space Model) 都 基于 这 样 的 假设 : 所 有 的 属性 取 值 都 差不多 是 | 以 0 为 均值 且 取 值 范围 是 相近 的 。 


将 原始 数据 处 理 为 可 用 数据 后 ， 为 了 评估 模型 的 好 坏 ， 我 们 将 数据 分 成 两 份 : 训练 集 和 测试 集 。 训 练 集 数据 用 于 调整 模型 的 参数 ， 即 进行 模型 的 训练 ， 模 型 在 这 份 数据 集 上 的 误差 被 称 为 训练 误差 ; 测 
试 集 数据 用 于 测试 ， 模 型 在 这 份 数据 集 上 的 误差 被 称 为 测试 误差 。 我 们 训练 模型 的 目的 是 为 了 通过 从 训练 数据 中 找到 规律 来 预测 未 知 的 新 数据 ， 所 以 测试 误差 是 更 能 反映 模型 表现 的 指标 。 分 割 数 据 的 比例 
要 考虑 到 两 个 因素 : 更 多 的 训练 数据 会 降低 参数 估计 的 方差 ， 从 而 得 到 更 可 信 的 模型 ， 而 更 多 的 测试 数据 会 降低 测试 误差 的 方差 ， 从 而 得 到 更 可 信 的 测试 误差 。 我 们 这 个 例子 中 设置 的 分 割 比 例 为 8: 2。 


在 更 复杂 的 模型 训练 过 程 中 ， 我 们 往往 还 会 多 使 用 一 种 数据 集 : 验证 集 。 因 为 复杂 的 模型 中 常常 还 有 一 些 超 参 数 (Hyperparameter) 需要 调节 ， 所 以 我 们 会 尝试 多 种 超 参 数 的 组 合 来 分 别 训练 多 个 模 
型 ， 然 后 对 比 它们 在 验证 集 上 的 表现 ， 选 择 相 对 最 好 的 一 组 超 参 数 ， 最 后 才 使 用 这 组 参数 下 训练 的 模型 在 测试 集 上 评估 测试 误差 。 由 于 本 节 训 练 的 模型 比较 简单 ， 我 们 暂且 忽略 掉 这 个 过 程 。 


2.5.3 ”模型 概 史 


处 理 好 数据 后 ， 就 可 以 开始 为 模型 设计 假设 函数 和 损失 函数 了 。2.4.1 节 中 已 经 为 大 家 介绍 了 假设 函数 、 损 失 函 数 和 优化 算法 的 基本 概念 。 下 面 将 在 房价 预测 的 例子 中 进一步 学 习 其 设置 规则 ， 在 房价 数 


据 集中 ， 和 房屋 相关 的 值 共有 两 个 ， 第 一 个 用 来 描述 房屋 面积 ， 即 模型 中 的 xi; 最 后 一 个 值 为 我 们 要 预测 的 该 类 房屋 价格 的 中 位 数 ， 即 模型 中 的 yi。 因 此 ， 我 们 模型 的 假设 函数 如 公式 2-1 所 示 : 


Y=aX+b (2-1 ) 


其 中 “表示 模型 的 预测 结果 ， 用 来 和 真实 值 Y 区 分 。 模 型 要 学 习 的 参数 即 : a，b。 


建立 模型 后 ， 我 们 需要 给 模型 一 个 优化 目标 ， 使 得 学 到 的 参数 能 够 让 预测 值 》 尽 可 能 地 接近 真实 值 Y。 输 入 任意 一 个 数据 样本 的 目标 值 》 0 模型 给 出 的 预测 值 i， 损 失 消 数 输出 一 个 非 负 的 实 值 。 这 个 实 
值 通常 用 来 反映 模型 误差 的 大 小 。 


对 于 线性 回归 模型 来 讲 ， 最 常见 的 损失 函数 就 是 均 方 误差 (Mean Squared Error，MSE) ， 如 公式 2-2 所 示 : 


2 


] 一/ 、 
MSE= 一 > ($Y ( 2-2) 
1 ji] / 


即 对 于 一 个 大 小 为 n 的 测试 集 ，MSE 是 n 个 数据 预测 结果 误差 平方 的 均值 。 

定义 好 模型 结构 之 后 ， 我 们 要 通过 以 下 几 个 步骤 进行 模型 训 | 练 : 

1) 初始 化 参数 ， 其 中 包括 权重 a 和 偏 置 b， 对 其 进行 初始 化 (如 0 均值 ，1 方 差 ) 。 

2) 从 当前 值 开始 计算 模型 输出 值 和 损失 函数 。 

3) 利用 梯度 下 降 的 方法 处 理 损失 函数 ， 在 寻找 损失 函数 极 小 值 的 过 程 中 依次 更 新 模型 中 的 参数 。 


4) 重复 2 ~ 3 步骤 ， 直 人 至 网 络 训 练 误差 达到 规定 的 程度 或 训练 轮 次 达到 设 定 值 。 


:二 二 > A JAWi) &_» 
注意 对 于 (3) ， 若 将 损失 函数 定义 为 ] (wi) ， 则 梯度 下 降 的 函数 表达 式 为 wi=wi-a OW ， = 是 赋值 符号 ，% 是 每 次 迭代 的 学 习 率 ， 通 过 设置 学 习 率 可 以 更 改 每 次 下 降 的 步 长 ， 使 结果 收敛 。 


2.5.4 效果 展示 


下 面 我 们 基于 某 市 某 地 区 的 房价 数据 进行 模型 的 训练 和 预测 。 图 2-13 所 示 的 散 点 图 展示 了 使 用 模型 对 部 分 房屋 价格 进行 的 预测 。 其 中 ， 每 个 点 的 横 坐 标 表示 同一 类 房屋 真实 价格 的 中 位 数 ， 纵 坐标 表示 
线性 回归 模型 根据 特征 预测 的 结果 ， 当 二 者 值 完全 相等 的 时 候 就 会 落 在 直线 上 。 所 以 模型 预测 得 越 准确 ， 则 点 离 直线 越 近 。 可 以 看 出 预测 结果 还 是 比较 不 错 的 ， 散 点 基本 落 在 了 直线 周围 。 
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图 2-13 ”预测 值 vs 真 实 值 


2.6 深度 学 习 框架 简介 


2.6.1 ”深度 学 习 框 架 的 作用 

深度 学 习 凭 借 着 强大 的 功能 和 出 色 的 表现 吸引 了 大 量程 序 员 前 来 学 习 ， 对 于 学 习 者 来 说 除了 硬件 (GPU) 的 基础 环境 外 ， 与 开发 相关 的 软件 资源 也 尤为 重要 。 在 这 一 浪潮 下 各 大 公司 和 高 校 纷 纷 开源 了 
自己 的 深度 学 习 框架 ， 这 些 深度 学 习 框架 被 应 用 于 计算 机 视觉 、 语 音 识 别 、 自 然 语 言 处 理 等 领域 ， 并 获得 了 极 好 的 效果 。 本 节 将 首先 为 大 家 介绍 深度 学 习 框架 的 主要 优势 。 

1. 简 化 计算 图 的 搭建 

计算 图 (computational graph) 可 以 看 作 是 一 种 描述 函数 的 语言 。 图 中 的 结 点 代表 函数 的 输入 ， 边 代表 这 个 函数 的 操作 。 计 算 图 本 质 上 是 一 个 有 向 无 环 图 ， 它 可 以 被 用 于 大 部 分 基础 表达 式 建 模 。 


在 深度 学 习 框 架 中 包含 许多 张 量 和 基于 张 量 的 各 种 操作 ， 随 着 操作 种 类 的 增多 ， 多 个 操作 中 间 的 执行 关系 变 得 十 分 复杂 。 计 算 图 可 以 更 加 精确 地 描述 网 络 中 的 参数 传播 过 程 ， 自 己 编写 代码 搭建 计算 图 
需要 程序 员 学 习 大 量 的 知识 ， 并 且 会 耗费 很 多 时 间 ， 而 深度 学 习 框 架 可 以 帮 你 很 容易 地 搭建 计算 图 。 这 是 人 们 使 用 深度 学 习 框 架 进 行 开 发 的 一 个 重要 原因 。 


2. 简 化 偏 导 计算 


深度 学 习 框架 的 另 一 个 好 处 是 让 求 导 计算 变 得 更 加 简便 。 在 深度 学 习 的 模型 搭建 过 程 中 ， 不 可 避免 地 要 计算 损失 函数 ， 这 就 需要 不 停 地 做 微分 计算 。 有 了 深度 学 习 框架 ， 程 序 员 不 再 需要 自己 反复 编写 
微分 计算 的 复杂 代码 。 神 经 网 络 可 以 视 为 由 许多 非 线 性 过 程 组 成 的 复杂 函数 体 ， 而 计算 图 则 以 模块 化 的 方式 完整 表达 了 这 一 遂 数 体 的 内 部 逻辑 关系 ， 因 此 对 这 一 复杂 遂 数 体 求 模 型 梯度 就 变 成 了 在 计算 图 中 
简单 地 从 输入 到 输出 进行 一 次 完整 遍历 的 过 程 。 相 比 与 传统 的 微分 计算 ， 这 一 方法 大 大 简化 了 计算 过 程 。 自 2012 年 后 ， 绝 大 多 数 的 深度 学 习 框架 都 选择 了 基于 计算 图 的 声明 式 求解 。 用 计算 图 做 微分 求解 过 
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图 2-14 用 计算 图 求 偏 导 


深度 学 习 框架 的 另 一 个 重要 的 优势 是 它 具 有 灵活 的 移植 性 ， 可 以 将 同一 份 代码 几乎 不 经 过 修改 地 部 署 到 GPU 或 CPU 上 ， 程 序 员 不 必 将 精力 消耗 在 处 理 内 存 转移 等 问题 上 。 目 前 对 于 大 规模 的 深度 学 习 来 
说 ,巨大 的 数据 量 使 得 单机 很 难 在 有 限 的 时 间 内 完成 训练 。 这 就 需要 使 用 集群 分 布 式 并 行 计算 或 使 用 多 卡 GPU 计 算 ， 因 此 使 用 具有 分 布 式 性 能 的 深度 学 习 框架 可 以 使 模型 训练 更 加 高 效 。 


2.6 ”深度 学 习 框 染 人 简介 


2.6.1 ”深度 学 习 框 架 的 作用 


深度 学 习 凭 借 着 强大 的 功能 和 出 色 的 表现 吸引 了 大 量程 序 员 前 来 学 习 ， 对 于 学 习 者 来 说 除了 硬件 (GPU) 的 基础 环境 外 ， 与 开发 相关 的 软件 资源 也 尤为 重要 。 在 这 一 浪潮 下 各 大 公司 和 高 校 纷 纷 开源 了 
自己 的 深度 学 习 框架 ， 这 些 深度 学 习 框 架 被 应 用 于 计算 机 视觉 、 语 音 识别 、 自 然 语言 处 理 等 领域 ， 并 获得 了 极 好 的 效果 。 本 节 将 首先 为 大 家 介绍 深度 学 习 框 架 的 主要 优势 。 


1. 简 化 计算 图 的 搭建 


计算 图 (computational graph) 可 以 看 作 是 一 种 描述 函数 的 语言 。 图 中 的 结 点 代表 函数 的 输入 ， 边 代表 这 个 函数 的 操作 。 计 算 图 本 质 上 是 一 个 有 向 无 环 图 ， 它 可 以 被 用 于 大 部 分 基础 表达 式 建 模 。 


在 深度 学 习 框 架 中 包含 许多 张 量 和 基于 张 量 的 各 种 操作 ， 随 着 操作 种 类 的 增多 ， 多 个 操作 中 间 的 执行 关系 变 得 十 分 复杂 。 计 算 图 可 以 更 加 精确 地 描述 网 络 中 的 参数 传播 过 程 ， 自 己 编写 代码 搭建 计算 图 
需要 程序 员 学 习 大 量 的 知识 ， 并 且 会 耗费 很 多 时 间 ， 而 深度 学 习 框 架 可 以 帮 你 很 容易 地 搭建 计算 图 。 这 是 人 们 使 用 深度 学 习 框架 进行 开发 的 一 个 重要 原因 。 


2. 简 化 偏 导 计算 


深度 学 习 框架 的 另 一 个 好 处 是 让 求 导 计算 变 得 更 加 简便 。 在 深度 学 习 的 模型 搭建 过 程 中 ， 不 可 避免 地 要 计算 损失 函数 ， 这 就 需要 不 停 地 做 微分 计算 。 有 了 深度 学 习 框架 ， 程 序 员 不 再 需要 自己 反复 编写 
微分 计算 的 复杂 代码 。 神 经 网 络 可 以 视 为 由 许多 非 线 性 过 程 组 成 的 复杂 函数 体 ， 而 计算 图 则 以 模块 化 的 方式 完整 表达 了 这 一 遂 数 体 的 内 部 逻辑 关系 ， 因 此 对 这 一 复杂 遂 数 体 求 模型 梯度 就 变 成 了 在 计算 图 中 
简单 地 从 输入 到 输出 进行 一 次 完整 遍历 的 过 程 。 相 比 与 传统 的 微分 计算 ， 这 一 方法 大 大 简化 了 计算 过 程 。 自 2012 年 后 ， 绝 大 多 数 的 深度 学 习 框架 都 选择 了 基于 计算 图 的 声明 式 求解 。 用 计算 图 做 微分 求解 过 
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图 2-14 用 计算 图 求 偏 导 


深度 学 习 框 架 的 另 一 个 重要 的 优势 是 它 具 有 灵活 的 移植 性 ， 可 以 将 同一 份 代码 几乎 不 经 过 修改 地 部 署 到 GPU 或 CPU 上 ， 程 序 员 不 必 将 精力 消耗 在 处 理 内 存 转 移 等 问题 上 。 目 前 对 于 大 规模 的 深度 学 习 来 
说 ， 巨 大 的 数据 量 使 得 单机 很 难 在 有 限 的 时 间 内 完成 训练 。 这 就 需要 使 用 集群 分 布 式 并 行 计算 或 使 用 多 卡 GPU 计 算 ， 因 此 使 用 具有 分 布 式 性 能 的 深度 学 习 框 架 可 以 使 模型 训练 更 加 高 效 。 
2.6.2 ”常见 的 深度 学 习 框架 


目前 开源 的 深度 框架 有 许多 ， 各 种 框架 的 侧重 点 也 不 尽 相 同 ， 使 用 者 可 以 根据 自己 的 需求 以 及 使 用 习惯 进行 选择 。 常 见 的 深度 学 习 框 架 主 要 有 : PaddlePaddle、TensorFlow、Caffe2、PyTorch、 
MXNet、CNDK 等 ， 各 框架 的 名 称 及 开发 公司 如 表 2-1 所 示 。 


CNTK PaddlePaddle 
(Microsoft) (Baidu) 


Caffe2 i TensorFlow 
(Facebook) TensorF | OW (Google) 


PyTorch | MXNet 


PYT 6 RCH (Facebook) 3 (Amazon) 


2.6.3 PaddlePaddle 简 介 


PaddlePaddle 是 百度 开源 的 、 易 学 易 用 的 分 布 式 深度 学 习 平台 。 


PaddlePaddle 为 用 户 提 供 了 直观 灵活 的 数据 接口 和 模型 配置 接口 ， 使 得 使 用 更 加 方便 。 同 时 他 支持 CNN、RNN 等 多 种 神经 网 络 结构 和 优化 算法 ， 简 单 书写 配置 文件 即 可 实现 复杂 模型 ， 具 备 相当 高 的 
灵活 性 。 在 计算 、 存 储 、 通 信 、 架 构 等 方面 都 做 了 高 效 优化 ， 可 以 充分 返回 各 种 资源 的 性 能 。 此 外 还 有 很 好 的 扩展 性 ， 全 面 支 持 多 核 、 多 GPU、 多 机 环境 ， 可 以 轻松 应 对 大 规模 训练 的 需求 。 


PaddlePaddle 的 官网 在 http:/Wpaddlepaddle.org， 代 码 在 https://github.com/PaddlePaddle/Paddle， 欢 迎 同 学 们 fork 和 star， 并 贡献 jssue 和 patch。 


2.6.4 PaddlePaddle 使 用 

PaddlePaddle 目 前 支持 两 种 形式 的 安装 ， 分 别 是 docker 安 装 和 pip 安 装 ， 读 者 可 以 根据 自己 计算 机 的 配置 情况 以 及 使 用 习惯 任 选 一 种 方式 。 下 面 以 运行 PaddlePaddle 中 的 房价 模型 为 例 ， 介 绍 这 两 种 
安装 方式 。 

1.docker 安 装 

首先 需要 读者 在 自己 的 计算 机 上 安装 Docker， 安 装 好 后 ， 在 一 个 新 的 目录 下 创建 一 个 housing.py， 如 代码 清单 2-1 所 示 。 


代码 清单 2-1 创建 housing.py 


mkdir ~/workspace 
cd ~/workspace; touch housing.py 


下 载 房价 模型 目 放 在 ~/workspace 目 录 下 ， 使 用 你 喜欢 的 编辑 器 粘贴 此 Python 代 码 到 housing.py， 如 代码 清单 2-2 所 示 。 


代码 清单 2-2 ”运行 房价 训练 模型 


import paddle.v2 as paddle 


# Initialize PaddlePaddle. 
paddle.init (use gpu=False, trainer count=1) 


# Configure the neural network. 
x = paddle.layer.data (name='x', type=paddle.data type.dense Vector (13)) 
y predict = paddle.layer.fc (input=x, size=1, act=paddle.activation.Linear ()) 


with open('/workspace/fit a line.tar', 'r') as 工 : 
parameters = paddle.parameters.Parameters.from tar ( 工 ) 


# Infer using provided test data. 
probs = paddle.infer( 
output layer=y predict, parameters=parameters, 
input=[item for item in paddle.dataset.uci housing.test() () ] ) 


for i in xrange (len (Probs) ) : 
print 'Predicted price: ${:,.2f}'.format (probs[i][0] * 1000) 


在 一 个 新 的 PaddlePaddle Docker 容 器 运行 这 个 代码 ， 如 代码 清单 2-3 所 示 。 
代码 清单 2-3 ”运行 代码 


docker run --rm -v ~/workspace:/workspace paddlepaddle/paddle:1latest Python 
/workspace/housing.py 


它 应 该 打印 出 预测 住房 数据 的 清单 。 

注意 ”本章 中 用 到 的 房价 模型 ， 请 读者 从 以 下 链接 下 载 : https://raw.githubusercontent.com/PaddlePaddle/book/develop/01.fit_a line/fit_a_line.tar。 
2.pip 安 装 

与 docker 安 装 类 似 ， 读 者 需要 先 安装 Python2.7.x。 下 载 房价 模型 (链接 见 docker 安 装 ) ， 在 计算 机 上 安装 PaddlePaddle， 如 代码 清单 2-4 所 示 。 


代码 清单 2-4 ”安装 PaddlePaddle 


pip install paddlepaddle 


创建 一 个 housing.py 并 粘贴 此 Python 代码 (请 确保 fit_ a_line.tar 是 在 正确 的 路 径 上 ) ， 如 代码 清单 2-5 所 示 。 


代码 清单 2-5 ”运行 房价 训练 模型 


import paddle.v2 as paddle 
# Initialize PaddlePaddle. 
paddle.init (use gpu=False, trainer count=1) 


# Configure the neural network. 
x = paddle.layer.data (name='x', type=paddle.data type.dense Vector (13)) 

y predict = paddle.layer.fc (input=x, size=1l, act=paddle.activation.Linear () ) 
with open('fit a line.tar', 'r') as f: 
parameters = paddle.parameters.Parameters.from tar ( 工 ) 


# Infer using provided test data. 
probs = paddle.infer( 
output layer=y predict, parameters=parameters, 
input=[item for item in paddle.dataset.uci housing.test() () ] ) 


for i in xrange (len (Probs) ) : 
print 'Predicted price: ${:,.2f}'.format (probs[i][0] * 1000) 


执行 python housing.py， 它 应 该 打印 出 预测 住房 数据 的 清单 。 


2.7 PaddlePaddle 实 现 


过 上 文 的 学 习 ， 相 信 读 者 已 经 了 解 了 线性 回归 模型 的 原理 ， 以 及 PaddlePaddle 的 安装 方法 ， 本 节 将 用 PaddlePaddle 实 现 简化 版 的 房价 预测 模型 


1. 加 载 包 


在 进 


行 网 络 配置 之 前 ， 首 先 需要 加 载 相应 的 Python 库 ， 并 进 


代码 清单 2-6 “加载 包 


impo 
matp 
impo 
impo 
impo 


ib 
('Agg') 


rt matplotl] 
lotlib.use 


rt matplotl] 
rt numpy as np 
rt padgdl 


2. 数 据 处 理 


本 次 数据 集 使 用 的 是 2016 年 12 月 份 某 市 某 地 区 的 房价 分 布 。 为 了 简化 模型 


归 一 化 。 


ib.pyplot as plt 


e.V2 as paddle 


代码 清单 2-7 ”dataset 初 始 化 


TRAIN DATA = None 
X RAW = None 
TEST DATA = None 


代码 清单 2-8 ” 载 入 数据 


def 


load data ( 工 


载 入 数据 并 进行 数据 预 处 理 


Filename: 数据 存储 文件 
feature num: 数据 特征 数量 


Args: 


ilename, f£ 


atur 


ratio: 训练 集 占 总 数据 集 比例 


Return: 


global TRATI 


N DATA, TEST 


， 从 该 文件 


DATA, X 


nNnUum=2, ratio=0.8): 


读 取 数 据 


RAW 


#data = np.loadtxt () 


() 表示 将 数据 载 入 后 以 入 


#delimiter=',， 表示 以 ', ' 为 分 隔 符 


data = np.1loadtxt (1 
X RAW = data.T[0] 


#axis=0 表示 按 列 计算 
#data. shape [0] 


axis=0) 


# 归 一 化 ，data[:，i] 


for i in xrange (f 


fi lename, 
.COPY () 


表示 data 中 一 
maximums, minimums, avgs = data.max (axis=0), 
/ data.shape[0] 


delimiter="','") 


多少 列 


表示 第 i 列 的 元 素 


eature num - 1): 


data.min (axis=0), 


行 初始 化 操作 ， 如 代码 清单 2-6 所 示 。 


E 阵 或 向 量 的 形式 存储 在 data 中 


data.sum( 


data[:, i] = (data[:, i] - avgs[i]) / (maximums[i] - minimums[i]) 
#offset 用 于 划分 训练 数据 集 和 测试 数据 集 ， 例 如 0 .8 表示 训练 集 占 80% 
offset = int (data. shapel0] * ratio) 
TRAIN DATA = datal[l:offset].copy() 
TEST . DATA = qata[offset:].copy() 
完成 数据 集 的 加 载 和 分 割 后 ，PaddlePaddle 中 通过 reader 来 加 载 数 据 。reader 返 回 的 数据 可 以 包括 多 列 ， 利 用 reader 可 以 使 训练 组 合 特 


寺 征 变 得 更 


数据 多 起 来 时 就 会 发 现 利 用 reader 训 练 模型 会 比 传统 方法 方便 许多 。 代 码 清单 2-9 是 利用 reader 读 取 训 练 数据 或 测试 数据 ， 服 务 于 train () 和 test () ， 
的 训练 数据 集 和 测试 数据 集 


代码 清单 2-9 ” 读 取 训练 数据 或 测试 数据 


def 


read data(data set): 


读 取 训练 数据 或 测 斌 数据， 服务 于 train() 和 test () 


于 获取 训练 数据 集 及 


datal[-1 


Args: 
data_set: 要 获取 的 数据 集 
Return: 
reader: 用 
def reader () : 
一 个 readqer 
Args: 
Return: 
data[:-1], 
datal 


yield data 


return reader 


for data in data set: 


攻 


-1], datal 


代码 清单 2-10 ”获取 训练 数据 集 


def 


-- 使 月 
和 寺前 江 1 不 元 针 ， 也 就 是 训练 数据 ，data[- 


其 标签 的 生成 器 generator 


| 


train(): 
定义 一 个 reader 来 获取 训练 数据 集 及 其 标签 
Args: 
Return: 
read data -- 用 于 获取 训练 数据 集 及 其 标签 的 reader 
global TRAIN DATA 


load data('data.txt 


~ 一 


return read data (TRAIN DATA) 
代码 清单 2-11 ”获取 测试 数据 集 
def test() : 
定义 一 个 reader 来 获取 测试 数据 集 及 其 标签 
Args: 
Return: 
read data -- 用 于 获取 测试 数 所 


global TEST DATA 


load data('gdata.txt 


i 


昌 集 及 其 标签 的 reader 


yield 返回 生成 器 ( ne 


; ] 表 示 最 后 一 个 元 素 ， 也 就 是 对 应 的 标签 


， 代 码 实 现 过 程 如 下 。 


， 假 设 影响 房价 的 因素 只 有 房屋 面积 ， 因 此 数据 集 只 有 两 列 。 代 码 清单 2-7 和 2-8 展 示 了 数据 处 理 的 全 部 过 程 ， 包 括 数 据 装载 和 


DR 二 


容易 。 本 次 的 数据 只 有 两 维 ，reader 优 点 不 明显 ， 当 
代码 清单 2-10 和 2-11 是 分 别 获 取代 码 清单 2-9 中 生成 


return read data (TEST DATA) 


3. 搭 建 神经 网 络 


线性 回归 的 模型 其 实 就 是 一 个 采用 线性 激活 函数 (Linear Activation) 的 全 连接 层 (Fully-Connected Layer，fc layer) (如 图 2-15 所 示 ) ， 因 此 在 PaddlePaddle 中 利用 全 连接 层 模型 构造 线性 回 
归 ， 这 样 一 个 全 连接 层 就 可 以 看 作 是 一 个 简单 的 神经 网 络 。 本 次 的 模型 由 于 只 有 一 个 影响 参数 ， 因 此 输入 只 含 一 个 X0。 


入 人 层 营 层 


y predict 


图 2-15 和 神经 网 络 模型 表示 线性 回归 


搭建 神经 网 络 就 像 使 用 积木 搭建 宝塔 一 样 。 在 PaddlePaddle 中 ， 网 络 层 (layer) 是 我 们 的 积木 ， 而 神经 网 络 是 我 们 要 搭建 的 宝塔 。 我 们 使 用 不 同 的 layer 进 行 组 合 ， 来 搭建 神经 网 络 。 宝 塔 的 底 端 需 
坚实 的 基 座 来 支撑 ， 同 样 ， 神 经 网 络 也 需要 一 些 特 定 的 layer 作 为 输入 接口 ， 来 完成 网 络 的 训练 。 


代码 清单 2-12 中 定义 了 一 个 layer 组 合 ， 其 中 ，x 与 y 为 之 前 描述 的 输入 层 ; y_predict 接 收 x 作 为 输入 ， 接 上 一 个 全 连接 层 ; cost 接 收 y_predict 与 y 作 为 输入 ， 接 上 均 方 误差 层 。 最 后 一 层 cost 中 记录 了 神 
经 网 络 的 所 有 拓扑 结构 ， 通 过 组 合 不 同 的 layer， 我 们 即 可 完成 神经 网 络 的 搭建 。 其 中 x 表示 输入 数据 是 一 个 维度 为 1 的 稠密 向 量 ，y 表 示 输 入 数据 是 一 个 维度 为 1 的 稠密 向 量 。 


代码 清单 2-12 ”配置 网 络 结构 


def network config() : 
配置 网 络 结构 
Args: 
Return: 
cost: 损失 函数 
Parameters: 模型 参数 
optimizer: 优化 器 
feeding: 数据 映射 ，Python 字 典 


# 输入 层 ，pagdqdle.1layer.data 表 示 数 据 层 ，name='x' :名 称 为 x input， 
# type=paddle.data type.dense vector (1) :数据 类 型 为 1 维 稠密 向 量 
x input = paddle.layer.data (name='x', 

type=paddle.data type.dense vector (1)) 


# 输出 层 ，pagddle.1layer .fc 表示 全 连接 层 ，ijnput=x input 表 示 该 层 输入 数据 层 

# size=1 :神经 元 个 数 ，act=padqdle.activation.Linear () :激活 函数 为 Linear () 

y predict = paddle.layer.fc(input=x input, size=1, 
act=paddle.activation.Linear ()) 


# 标签 数据 ，padqdle.1layer.data 表 示 数 据 屋 ，name='y' :名 称 为 y 

# type=paddle.data type.dense vector (1) :数据 类 型 为 1 维 稠密 向 量 

Y_ Jabel = paddle.1layer.data (name='"y'"， 
type=paddle.data type.dense Vector (1)) 


# 定义 成 本 函数 为 均 方差 损失 函数 square error cost 


cost = paddle.layer.square error cost (input=y predict, label=y label) 


# 利用 cost 创 建 parameters 
parameters = paddle.parameters.create (cost) 


# 创建 optimizer， 并 初始 化 momentum，momentum=0 为 普通 SGD 优 化 算法 
optimizer = paddle.optimizer.Momentum (momentum=0) 


# 数据 层 和 数组 索引 映射 ， 用 于 trainetr 训 练 时 喂 数据 
feeding = {'x': 0, 'y': 1} 


result = [cost, parameters, optimizer, feedingl] 


return result 


4. 初 始 化 PaddlePaddle 
使 用 PaddlePaddle 框 架 的 第 一 步 是 初始 化 ， 使 用 init 函 数 就 是 显示 的 初始 化 。 


代码 清单 2-13 ”初始 化 ，use_gpu= False 表 示 不 使 用 GPU 


def main() : 
# init 
paddle.init (use gpu=False, trainer count=1) 


5. 训 练 模型 


在 完成 神经 网 络 结构 搭建 之 后 ， 首 先 需 要 根据 神经 
trainer 接 收 三 个 参数 ， 即 cost、parameters、update_ equation， 


- 


代码 清单 2-14 配置 网 络 结构 和 设置 参数 


cost, parameters, optimizer, feeding = network config () 


代码 清单 2-15 ”记录 成 本 


# 记录 成 本 cost 


costs = |[] 


代码 清单 2-16 ”创建 trainer 


# create trainer 
trainer = paddle.trainer.SsSGD( 
Cost=cost, parameters=parameters, update equation=optimizer) 


在 搭建 神经 网 络 结构 的 过 程 中 ， 仪 仪 对 神经 网 络 的 输入 进行 了 描述 。 


dict 可 以 把 列 序号 映射 到 网 络 里 的 数据 层 。 此 外 ，PaddlePaddle 还 提供 事件 管理 机 制 event handler， 


代码 清单 2-17 定义 事件 处 理 器 ， 打 印 训 练 进度 


# event handler to print training and testing info 
def event handler (event): 


事件 处 理 器 ， 可 以 根据 训练 过 程 的 信息 


Args: 


作 相 应 操作 


出 


Return: 


if isinstance (event, paddle.event.EndIiteration): 
if event.pass id $ 100 == 0: 
print "Pass %d, Batch %d, Cost %f" 要 ( 
event .pass id, event.batch id, event.cost) 
costs.append (event .cost) 


Ee 


f isinstance (event, paddle.event.EndPass): 
result = trainer.test( 
reader=paddle.batch (test (), batch size=2), 
feeding=feeding) 
print “Test %d, Cost %f” % (event.pass id, result.cost) 


接 下 来 可 以 调用 trainer 的 train 方 法 启动 训练 ， 有 具体 过 程 如 代码 清单 2-18、2-19、2-20 所 示 。 


代码 清单 2-18 ”模型 训练 


# training 

trainer.trainl( 
reader=paddle .batch ( 
paddle.reader .shuff 
batch size=256), 

feeding=feeding, 

event handler=event handler., 

num passes=300) 


le(train(), buf size=500), 


代码 清单 2-19 ”打印 参数 结果 


print parameters (parameters) 


代码 清单 2-20 ”展示 学 习 曲 线 


plot costs (costs) 


6. 预 测 房 价 


训练 结束 后 输出 回归 模型 的 系数 a、b 和 成 本 国 数 变化 情况 ， 如 代码 清单 2-21、 


代码 清单 2-21 ”参数 打印 


def print _ parameters (Parameters) : 
打印 训练 结果 的 参数 以 及 测试 结 


Args: 
Parameters: 训练 结果 的 参数 


Return: 


print "Result Parameters as below:" 


theta a = parameters.get('" fc layer 0 .w0O')[0] 

theta b = parameters.get('" fc layer 0 .wbias') [0] 
0 = X RAW[O] 

0 = theta a * TRAIN DATA[0] [0] + theta b 

x 1 = X RAWI[1] 

y 1 = theta a * TRAIN DATA[1] [0] + theta b 

param a= (yO0-y1)/ (x0-x]) 

param b = (y 1 - param a * x 1) 

print 'a = ', param a 

print 'b = ', param b 


代码 清单 2-22 ”展示 模型 训练 曲线 


def plot costs (costs): 


利用 costs 展 示 模 型 的 训练 曲线 
Args: 
记录 了 训练 过 程 的 cost 变 化 的 list， 每 一 百 次 迭代 记录 一 次 


Costs: 
Return: 


Er 


网 络 结构 来 创建 所 需要 优化 的 参数 集 
它们 分 别 表示 成 本 函数 、 


而 trainer 需 要 读 取 训练 数据 进行 训练 ，PaddlePaddle 中 通 


Event :事件 对 象 ， 包 仿 event .pass id，event.batch id，event.cost 等 信息 


2-22 所 示 。 


合 (Parameters) 


， 并 创建 优化 器 (Optimizer) 。 


接 下 来 可 以 创建 训练 器 (trainer) 来 对 网 络 


参数 和 更 新 公式 。 有 具体 实现 如 代码 清单 2-14、2-15、2-16 所 示 。 


可 以 用 来 打印 训练 的 进度 及 对 模型 


过 reader 来 加 载 数据 。 


训练 效果 进 


回 的 数据 可 以 包括 多 列 ， 
行 监控 ， 如 代码 清单 2-17 所 示 。 


reader 返 


进行 训练 。 其 


一 个 Python 


Costs = np.squeeze (costs) 

lt.plot (costs) 

ylabel ('cost') 

xlabel ('iterations (Per hundreds)') 
title ("House Price Distributions ") 
Show () 

savefig('costs.png') 


Fhe 


D0000.0 


模型 训练 完毕 ， 输 出 成 本 函数 ， 如 代码 清单 2-23 所 示 ， 观 察 变 化 ， 结 果 如 图 2-16 所 示 。 


代码 清单 2-23 ”开始 预测 


让 下 name == ' main ': 


420000 
400000 
320000 


300000 
230000 
200000 
1S50000 


成 本 


100000 
S0000 
0 


0 1 2 3 4 5 6 7 
迭代 《每 日 次 友 代 为 一 个 单位 ) 


图 2-16 ”成 本 函数 变化 情况 


运行 代码 ， 得 到 预测 结果 : a=7.1，b=-62.1 ( 注 : 计算 结果 可 能 不 完全 一 致 ) ， 因 此 本 次 模型 得 到 的 房屋 面积 与 房价 之 间 的 拟 合 遂 数 为 y=7.1x-62.1。 其 中 y 为 预测 的 房屋 价格 ，x 为 房屋 面积 ， 根 据 这 
个 公式 可 以 推断 : 如 果 有 500 万 的 预算 ， 想 在 该 地 区 购房 ， 记 屋 面积 大 概 为 7” (平方 米 ) 。 

7 数据 可 视 化 

通过 训练 ， 本 次 线性 回归 模型 输出 了 一 条 拟 合 的 直线 ， 想 要 直观 地 判断 模型 好 坏 可 将 拟 合 直线 与 数据 的 图 像 绘制 出 来 。 代 码 清单 2-24 描 述 了 这 一 绘制 过 程 。 


代码 清单 2-24 ”绘图 


jmpor 
jmpor 


numpy as np 
matplotlib.pyplot as plt 


def plot data (data,a,b): 


y predict = x*a + b; 

It.scatter (x, y, marker="'.',c="'r',1label="'True') 
|t.title('House Price Distributions') 

xlabel ('House Area ') 

ylabel ('House Price ') 

xlim(0,250) 

.ylim(0,2500) 

edict = plt.plot (x,y predict,1label="'Predict') 
It.legend (loc='upper left') 
It.savefig('result.png') 

lt.show() 


人 
全 


己 


中 中 中 中 中 吕 中 吕 中 吕 


data = np.loagdtxt ('data.txt', delimiter="','") 
X RAW = data.T[0] .copy() 
plot data (data,7.1,-62.1) 


输出 结果 如 图 2-17 所 示 ， 预 测 数据 落 在 蓝 色 的 直线 上 ， 通 过 观察 可 以 清楚 地 看 到 真实 数据 大 部 分 散布 在 预测 数据 周围 ， 说 明 预 测 结果 是 比较 可 靠 的 。 
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图 2-17 拟 合 图 形 


本 章 小 结 


本 章 作为 深度 学 习 和 PaddlePaddle 的 入 门 内 容 ， 在 回顾 机 器 学 习 相关 知识 的 基础 上 ， 对 深度 学 习 概 况 进 行 了 梳理 ， 介 绍 了 深度 学 习 中 较为 重要 的 概念 ， 以 及 PaddlePaddle 的 基本 使 用 说 明 ， 为 后 面 的 
章节 做 了 铺垫 。 


本 章 通 过 引入 人 工 智能 、 机 器 学 习 和 深度 学 习 三 者 的 关系 ， 梳 理 了 人 工 智能 的 分 支 框架 。 顺 由 时 间 脉 络 对 深度 学 习 的 发 展 历 程 以 及 主要 应 用 场景 展开 了 有 具体 的 介绍 。 紧 接着 介绍 了 常见 的 深度 学 习 网 络 
模型 ,分 别 有 CNN、RNN 和 FC， 不 同 的 网 络 结构 有 自己 的 适应 场景 。 


本 章 以 机 器 学 习 中 最 简单 的 线性 回归 为 例 ， 借 用 PaddlePaddle 平 台 实 现 这 一 模型 ， 带 领 读者 回顾 机 器 学 习 中 有 关 模 型 搭建 的 重要 概念 。 读 者 安装 好 PaddlePaddle 后 ， 利 用 书 中 的 代码 可 以 完成 一 个 简 
单 的 房价 预测 模型 搭建 及 训练 实例 。 通 过 完成 预测 过 程 ， 帮 助 读者 初步 认识 PaddlePaddle， 快 速 入 门 ， 开 启 下 一 步 的 深度 学 习 之 门 。 


本 章 的 参考 代码 在 https://github.com/BaiduOSS/DeepLearningAndPaddleTutorial 下 lesson2 子 目录 下 。 


第 3 草 ”深度 学 习 的 蛙 层 网 络 


上 一 章 中 介绍 了 深度 学 习 的 基本 概念 和 PaddlePaddle 框 架 的 入 门 知识 ， 本 章 将 为 读者 介绍 深度 学 习 的 最 简单 形式 一 一 单 层 神 经 网 络 。 全 书 将 以 识别 猫 的 问题 作为 开始 ， 带 领 读者 一 步 步 地 学 习 ， 从 使 用 
简单 的 单 层 网 络 到 复杂 的 深层 网 络 ， 从 实现 基本 结构 到 添加 各 类 优化 ， 由 浅 至 深 ， 循 序 渐进 。Logistic 回 归 模 型 是 简单 的 单 层 网 络 ， 是 进一步 学 习 深 度 学 习 的 垫 脚 石 。 本 章 就 对 Logistic 回 归 模 型 进行 学 习 ， 
并 利用 Logistic 回 归 模型 解决 识别 猫 的 问题 。 


本 章 是 本 书 知识 结构 的 基础 ， 其 中 涉及 了 大 量 深度 学 习 中 的 关键 概念 和 技巧 ， 重 要 的 知识 点 包括 Logistic 回 归 模 型 概述 、 损 失 函 数 、 梯 度 下 降 算法 、 向 量化 以 及 如 何 使 用 Numpy 和 PaddlePaddle 框 架 实 
现 Logistic 回 归 模 型 。 这 些 概念 和 知识 是 在 之 后 几 个 部 分 的 学 习 中 需要 经 常 使 用 到 的 ， 是 读者 进一步 学 习 深 度 学 习 内 容 的 基本 工具 ， 和 希望 读者 可 以 牢 牢 掌 握 本 章 内 容 。 


学 完 本 章 ， 和 希望 读者 能 够 掌握 以 下 知识 点 : 
(1) 掌握 Logistic 回 归 模 型 ， 对 神经 网 络 的 结构 有 基本 的 理解 。 
(2) 掌握 损失 函数 、 梯 度 下 降 算 法 、 向 量化 在 Logistic 回 归 中 的 应 用 。 


(3) 使 用 Numpy 实 现 Logistic 回 归 模 型 。 


(4) 使 用 PaddlePaddle 实 现 Logistic 回 归 模型 。 


3.1 Logistic 回 归 模型 


3.1.1 Logistic 回归 概述 
Logistic 回 归 模型 常 被 用 于 处 理 二 分 类 问题 。 它 是 一 种 用 于 分 析 各 个 影响 因素 (x1，Xx2，.…，Xn) 与 分 类 结果 y 之 间 关 系 的 有 监督 学 习 方 法 。 它 的 应 用 十 分 广泛 ， 例 如 在 医学 领域 中 ， 若 要 研究 某 种 疾病 
9 影响 因素 ， 并 根据 影响 因素 来 判断 一 个 人 患 有 这 种 疾病 的 概率 ， 则 需要 使 用 到 Logistic 回 归 模型 。 


为 了 更 好 地 理解 Logistic 回 归 模 型 的 实际 意义 ， 这 里 以 肺癌 分 类 问题 为 例 展开 讨论 。 假 设 肺 癌 的 分 类 结果 为 y= 合 染 肺癌 ， 未 感染 肺癌 }， 影 响 因素 为 x={ 年 龄 ， 性 别 ， 是 否 吸 烟 }， 影 响 因素 值 可 以 是 离散 
值 ， 也 可 以 是 连续 值 。 通 过 Logistic 回 归 分 析 可 以 知道 哪些 影响 因素 对 感染 肺癌 更 为 关键 ， 也 就 是 确定 各 个 影响 因素 的 权 值 ， 从 而 构建 Logistic 回 归 模 型 。 借 助 计算 得 到 的 Logistic 回 归 模 型 ， 可 以 实现 预 
测 。 所 谓 预 测 就 是 输入 一 组 影响 因素 特征 向 量 ， 输 出 某 个 人 患 有 肺癌 的 可 能 性 。 


实际 上 ， 从 结构 上 来 看 (如 图 3-1 所 示 ) ， 完 全 可 以 将 Logistic 回 归 模 型 看 作 是 仪 含有 一 个 神经 元 的 单 层 的 神经 网 络 。 


入 ] 


图 3-1 Logistic 回 归 模 型 图 


上 述 结 构 可 以 描述 为 ， 给 出 一 组 特征 向 量 x={x1，x2，.…，xm}， 和 希望 得 到 一 个 预测 结果 了 。 即 : 


y=P{y=1|x} ( 3-1) 


其 中 表示 当 特 征 向 量 x 满 足 条 件 时 ，y=1 的 概率 。 应 用 在 之 前 提 到 的 肺癌 的 预测 问题 中 ， 那 么 向 量 x 表 示 给 出 一 个 人 的 年 龄 、 性 别 、 是 否 吸 烟 等 数据 值 所 构成 的 特征 向 量 ， 则 表示 这 个 人 患 有 肺癌 的 概 


区 


典型 的 深度 学 习 的 计算 过 程 包含 3 个 过 程 ， 前 向 传播 (Forward Propagation) 过 程 、 后 向 传播 (Backward Propagation) 和 梯度 下 降 (Gradient Descent) 过 程 。 这 一 个 算法 中 的 3 个 过 程 较为 复 
杂 ， 而 理解 这 3 个 过 程 是 理解 深度 学 习 的 基础 。 前 向 传播 过 程 可 以 暂时 理解 为 一 个 前 向 的 计算 过 程 ; 后 向 传播 过 程 可 以 简单 理解 为 层 层 求 偏 导 数 的 过 程 ; 梯度 下 降 过 程 可 以 理解 为 参数 沿 着 当前 梯度 相反 的 方 


向 进行 迭代 搜索 直到 最 小 值 的 过 程 。 为 了 帮助 读者 更 好 地 理解 这 3 个 概念 ， 本 书 的 第 3 章 、 第 4 章 和 第 5 章 将 层 层 深入 地 呈现 出 这 3 个 过 程 。 本 章 描述 的 一 层 Logistic 回 归 作 为 最 简单 的 深度 学 习 入 门 案 例 也 存在 
这 3 个 过 程 。 


层 数 为 1 的 Logistic 回 归 的 前 向 传播 过 程 是 最 简单 的 前 向 传播 过 程 。 这 个 过 程 可 以 想象 为 从 图 3-1 左 侧 的 向 量 x 开 始 向 右 计算 的 过 程 。 而 这 个 计算 过 程 内 部 由 具有 先后 次 序 的 两 部 分 组 成 : 第 一 部 分 是 线性 
变换 ， 第 二 部 分 是 非 线 性 变换 。 值 得 注意 的 是 ， 这 两 个 变换 过 程 可 以 视 作 一 个 整体 单元 ， 缺 一 不 可 ， 后 面 的 更 加 复杂 的 计算 就 是 多 次 反复 使 用 这 样 的 单元 。 


第 一 部 分 的 线性 变换 可 以 视 为 做 了 一 次 线性 回归 。 回 忆 一 下 ， 做 一 个 简单 的 线性 回归 ， 其 实 只 需要 将 输入 的 特征 向 量 进行 线性 组 合 即 可 。 假 设 输入 的 特征 向 量 为 xE R2 (二 维 向 量 ) ， 则 线性 组 合 的 结 


1TW2Xo Tt 


其 中 ，w1、w2 表 示 权 重 ，b 表 示 偏 置 ，z 表 示 线 性 组 合 的 结果 。 在 做 线性 回归 的 时 候 ， 最 终 想 要 找到 的 解 就 是 最 优 的 v1、w2 和 b。 上 式 也 常常 用 向 量 的 形式 表示 为 


z=w x+b 


二 部 分 的 非 线性 变换 是 在 第 一 部 分 线性 变换 的 基础 上 进行 的 。 预 测 一 个 人 是 否 得 肺癌 依靠 的 是 算法 输出 的 得 病 的 概率 ， 概 率 值 越 高 那么 其 患 病 的 风险 也 就 越 大 。Logistic 回 归 输 出 的 结果 理应 是 一 个 概 
率 》=P {y=1|X}, 而 概率 值 介 于 0 到 1 之 间 ， 也 就 是 ，0 三 二 1 而 观察 第 一 部 分 的 输出 是 一 个 线性 变换 后 得 到 的 实数 信 ， 必 须 把 这 个 什 转 化 为 一 个 概率 值 ， 也 就 是 使 其 介 于 0 到 1 之 间 。 而 这 个 转化 
过 程 就 是 第 二 部 分 非 线性 变换 的 工作 。 这 个 非 线性 变换 需要 使 用 一 个 非 线性 函数 来 做 到 ， 即 需要 找到 一 个 函数 g (z) 使 得 了 =8(2)=8(w X+D)， 在 深度 学 习 范围 内 非 线性 函数 g (z) 被 称 作 激活 函数 
(Activation Function) 。 激 活 函 数 可 以 有 很 多 具体 的 实例 ， 常 用 的 激活 函数 有 5 种 ， 在 不 同 的 应 用 场景 不 同 的 目的 下 可 选取 不 同 的 激活 函数 。 而 在 本 Logistic 回 归 中 激活 函数 具体 使 用 Sigmoid () 函数 。 


2 
Sigmoid () 函数 的 主要 作用 就 是 把 某 实 数 映射 到 区 间 (0，1) 内 ， 其 公式 为 "(”) Tf， 其 函数 图 像 如 图 3-2 所 示 。 观 察 图 像 会 友 现 Sigmoid () 尔 数 可 以 很 好 地 完成 这 个 工作 ， 当 信 较 大 


时 ，Ga (z) 趋 近 于 1， 当 值 较 小 时 ，o (z) 趋 近 于 0。 


图 3-2 ”Sigmoid 函 数 图 


Logistic 回 归 模型 的 工作 重点 与 所 有 深度 学 习 模型 的 工作 重点 一 样 ， 在 于 训练 一 组 最 优 参数 值 w 和 b。 这 组 最 合适 的 w 和 b 使 得 预测 结果 更 加 精确 。 那 么 怎样 才能 找到 这 样 的 参数 呢 ” 这 就 需要 定义 一 个 损 
失 函 数 ， 通 过 对 这 个 损失 函数 的 不 断 优化 来 最 终 训练 出 最 优 的 w 和 b。 


3.1 Logistic 回 归 模型 


3.1.1 Logistic 回归 概述 


Logistic 回 归 模 型 常 被 用 于 处 理 二 分 类 问题 。 它 是 一 种 用 于 分 析 各 个 影响 因素 (x1，x2，…，xn) 与 分 类 结果 y 之 间 关 系 的 有 监督 学 习 方法 。 它 的 应 用 十 分 广泛 ， 例 如 在 医学 领域 中 ， 若 要 研究 某 种 疾病 
9 影响 因素 ， 并 根据 影响 因素 来 判断 一 个 人 患 有 这 种 疾病 的 概率 ， 则 需要 使 用 到 Logistic 回 归 模 型 。 
为 了 更 好 地 理解 Logistic 回 归 模 型 的 实际 意义 ， 这 里 以 肺癌 分 类 问题 为 例 展开 讨论 。 假 设 肺癌 的 分 类 结果 为 y={ 感 染 肺癌 ， 示 感染 肺癌 }， 影 响 因 素 为 x= 人 年龄， 性别， 是 否 吸 烟 }， 影 响 因 素 值 可 以 是 离散 


值 ， 也 可 以 是 连续 值 。 通 过 Logistic 回 归 分 析 可 以 知道 哪些 影响 因素 对 感染 肺癌 更 为 关键 ， 也 就 是 确定 各 个 影响 因素 的 权 值 ， 从 而 构建 Logistic 回 归 模 型 。 借 助 计算 得 到 的 Logistic 回 归 模 型 ， 可 以 实现 预 
测 。 所 谓 预 测 就 是 输入 一 组 影响 因素 特征 向 量 ， 输 出 某 个 人 患 有 肺癌 的 可 能 性 。 


实际 上 ， 从 结构 上 来 看 (如 图 3-1 所 示 ) ， 完 全 可 以 将 Logistic 回 归 模 型 看 作 是 仪 含有 一 个 神经 元 的 单 层 的 神经 网 络 。 


图 3-1 Logistic 回归 模型 图 


上 述 结构 可 以 描述 为 ， 给 出 一 组 特征 向 量 x={x1，x2，.…，xm}j， 希 望 得 到 一 个 预测 结果 多。 即 ; 


y=P{y=1|x} ( 3-1) 


其 中 表示 当 特 征 向 量 x 满 足 条 件 时 ，y=1 的 概率 。 应 用 在 之 前 提 到 的 肺癌 的 预测 问题 中 ， 那 么 向 量 x 表 示 给 出 一 个 人 的 年 龄 、 性 别 、 是 否 吸烟 等 数据 值 所 构成 的 特征 向 量 ， Wn 则 表示 这 个 人 患 有 肺癌 的 概 


区 


典型 的 深度 学 习 的 计算 过 程 包含 3 个 过 程 ， 前 向 传播 (Forward Propagation) 过 程 、 后 向 传播 (Backward Propagation) 和 梯度 下 降 (Gradient Descent) 过 程 。 这 一 个 算法 中 的 3 个 过 程 较为 复 


杂 ， 而 理解 这 3 个 过 程 是 理解 深度 学 习 的 基础 。 前 向 传播 过 程 可 以 暂时 理解 为 一 个 前 向 的 计算 过 程 ;后 向 传播 过 程 可 以 简单 理解 为 层 层 求 偏 导数 的 过 程 ， 梯 度 下 降 过 程 可 以 理解 为 参数 沿 着 当前 梯度 相反 的 方 
向 进行 迭代 搜索 直到 最 小 值 的 过 程 。 为 了 帮助 读者 更 好 地 理解 这 3 个 概念 ， 本 书 的 第 3 章 、 第 4 章 和 第 5 章 将 层 层 深入 地 呈现 出 这 3 个 过 程 。 本 章 描述 的 一 层 Logistic 回 归 作 为 最 简单 的 深度 学 习 入 门 案例 也 存在 
这 3 个 过 程 。 


层 数 为 1 的 Logistic 回 归 的 前 向 传播 过 程 是 最 简单 的 前 向 传播 过 程 。 这 个 过 程 可 以 想象 为 从 图 3-1 左 侧 的 向 量 x 开 始 向 右 计 算 的 过 程 。 而 这 个 计算 过 程 内 部 由 具有 先后 次 序 的 两 部 分 组 成 : 第 一 部 分 是 线性 
变换 ， 第 二 部 分 是 非 线 性 变换 。 值 得 注意 的 是 ， 这 两 个 变换 过 程 可 以 视 作 一 个 整体 单元 ， 缺 一 不 可 ， 后 面 的 更 加 复杂 的 计算 就 是 多 次 反复 使 用 这 样 的 单元 。 


第 一 部 分 的 线性 变换 可 以 视 为 做 了 一 次 线性 回归 。 回 忆 一 下 ， 做 一 个 简单 的 线性 回归 ， 其 实 只 需要 将 输入 的 特征 向 量 进行 线性 组 合 即 可 。 假 设 输 入 的 特征 向 量 为 XER2 (二 维 向 量 ) ， 则 线性 组 合 的 结 
果 表 示 为 : 


2 一 1X1 十 YX5 十 局 


其 中 ，w1、w2 表 示 权 重 ，b 表 示 偏 置 ，z 表 示 线 性 组 合 的 结果 。 在 做 线性 回归 的 时 候 ， 最 终 想 要 找到 的 解 就 是 最 优 的 w1、w2 和 b。 上 式 也 常常 用 向 量 的 形式 表示 为 
z=w!x+b 


第 二 部 分 的 非 线性 变换 是 在 第 一 部 分 线性 变换 的 基础 上 进行 的 。 预 测 一 个 人 是 否 得 肺癌 依靠 的 是 算法 输出 的 得 病 的 概率 ， 概 率 值 越 高 那么 其 患 病 的 风险 也 就 越 大 。Logistic 回 归 输 出 的 结果 理应 是 一 个 概 
率 》=P {y=1|X}， 而 概率 值 介 于 0 到 1 之 间 ， 也 就 是 ，0 入 入 1， 而 观 罕 第 一 部 分 的 输出 是 一 个 线性 变换 后 得 到 的 实数 值 ， 必 须 把 这 个 值 转化 为 一 个 概率 值 ， 也 就 是 使 其 介 于 0 到 1 之 间 。 而 这 个 转化 


二 T 
过 程 就 是 第 二 部 分 非 线性 变换 的 工作 。 这 个 非 线性 变换 需要 使 用 一 个 非 线性 函数 来 做 到 ， 即 需要 找到 一 个 函数 g (z) 使 得 了 8(2)=8(W X+D)， 在 深度 学 习 范围 内 非 线性 函数 9 (z) 被 称 作 激活 函数 
(Activation Function) 。 激 活 函 数 可 以 有 很 多 具体 的 实例 ， 常 用 的 激活 函数 有 5 种 ， 在 不 同 的 应 用 场景 不 同 的 目的 下 可 选取 不 同 的 激活 函数 。 而 在 本 Logistic 回 归 中 激活 函数 具体 使 用 Sigmoid () 函数 。 


1 
Sigmoid () 函数 的 主要 作用 就 是 把 某 实 数 映射 到 区 间 (0，1) 内 ， 其 公式 为 "(Tre 其 函数 图 像 如 图 3-2 所 示 。 观 察 图 像 会 友 现 Sigmoid () 尔 数 可 以 很 好 地 完成 这 个 工作 ， 当 信和 较 大 


时 ，Ga (z) 趋 近 于 1， 当 值 较 小 时 ，o (z) 趋 近 于 0。 


图 3-2 ”Sigmoid 函 数 图 


Logistic 回 归 模型 的 工作 重点 与 所 有 深度 学 习 模型 的 工作 重点 一 样 ， 在 于 训练 一 组 最 优 参数 值 w 和 b。 这 组 最 合适 的 w 和 b 使 得 预测 结果 更 加 精确 。 那 么 怎样 才能 找到 这 样 的 参数 呢 ” 这 就 需要 定义 一 个 损 


失 函 数 ， 通 过 对 这 个 损失 函数 的 不 断 优 化 来 最 终 训 练 出 最 优 的 w 和 b。 


3.1.2 ”损失 函数 


1. 损 失 函 数 
尘 需要 具体 问题 具体 分 析 ， 在 不 同 问题 场景 下 采用 不 同 的 函数 。 


在 Logistic 回 归 模 型 中 ， 模 型 需要 定义 一 个 损失 函数 (Loss Function or Error Function) 用 于 对 参数 w 和 b 进 行 优 化 ， 而 损失 函数 的 选 } 


通常 情况 下 ,会 将 损失 遂 数 定义 为 平方 损失 函数 : 

L(y A (3-2 ) 
= 一 (一 ) 3-2 

题 。 以 最 简单 的 函数 形式 为 


但 是 在 Logistic 回 归 模 型 中 ， 通 常 不 使 用 这 种 形式 的 损失 函数 ， 原 因 是 它 会 导致 参数 的 优化 问题 变 成 非 凸 的 。 巴 优 化 问题 是 指 求 取 最 小 值 的 目标 函数 为 凸 函 数 的 一 类 优化 问题 
例 ， 我 们 知道 该 函数 只 有 一 个 极 小 值 和 一 个 最 小 值 ， 并 且 它 们 相等 ， 都 在 原点 位 置 被 找到 。 所 以 它 的 局 部 最 优 解 就 是 全 局 最 优 解 。 而 非 凸 优化 问题 则 与 此 相反 ， 由 于 它 具 有 多 个 局 部 最 优 解 ， 所 以 无 法 确定 


全 局 最 优 解 。 
在 Logistic 回 归 模 型 中 通常 使 用 对 数 损失 函数 (Logarithmic Loss Function) 作为 损失 函数 。 对 数 损失 函数 又 称 作对 数 似 然 损失 函数 (Log-likelihood Loss Function) 。 其 公式 如 下 : 


四 A™ A ， A 
L(y ,y)=—Qlog y+ (1—y)log(1— 7»)) ( 3-3 ) 
对 数 损 失 了 水 数 也 起 到 测量 与 之 间 差 异性 的 作用 。 函 数值 越 小 ， 则 表示 模型 越 好 ， 也 就 是 参数 w 和 b 越 好 。 相 比 于 普通 的 平方 损失 函数 ， 它 的 优势 在 于 能 够 让 参数 的 优化 变 成 凸 优 化 问题 ， 更 适合 寻找 全 局 


最 优 解 。 
证 明 对 数 损失 函数 可 以 作为 Logistic 回 归 模 型 的 损失 函数 并 不 难 。 首 先 将 其 拆 分 成 如 下 形式 : 


—log y 
(PP)=1 

-log(1-7y) y=0 
可 以 看 到 ， 损 失 函 数 根据 值 不 同 ， 存 在 两 种 情况 : 

1 ) 假设 对 于 一 个 样本 ， 当 时 六 =1， 此 时 本 y)=-log 了 3 了”， 如 果 想 让 损失 函数 
越 小 ， 则 需要 让 3》” 越 大 , 但 由 于 0 三 3》 三 1， 所 以 损失 取 数 会 使 得 趋 近 于 1， 如 果 
此 时 P01， 那么 ZL( 了 9, yoO)=-log ?oO=-logl=0。 此 时 的 损失 函数 等 于 零 ， 则 模型 对 于 
这 个 样本 的 预测 完全 准确 。 

2 ) 同 理 : 假设 对 于 一 个 样本 ， 当 y=0 时 ， 此 时 yl 中 ， 如 果 想 
让 损失 函数 越 小 ， 则 需要 让 了》 中 越 小 , 但 由 于 0 三 了》 三 1， 所 以 损失 也 数 会 使 得 》 趋 
近 于 0， 如 果 此 时 了 "=0， 那 么 L( 了 ,y= 一 log(1 一 pn 此 时 的 损失 函数 
等 于 去 ， 所 以 模型 对 于 这 个 样本 的 预测 也 完全 准确 。 


综 上 所 述 ， 让 损失 函数 L( 了 "，》”) 一 ”0， 等 价 于 让 预测 结果 了 “一 》"”， 在 最 小 化 损失 防 数 的 过 程 ， 也 是 让 预测 结果 更 精确 的 过 程 ， 再 加 上 其 凸 优化 的 性 质 ， 故 对 数 损失 函数 比较 适合 作为 
Logistic 回 归 模型 的 损失 函数 。 


人 
|| 


(3-4 ) 


2. 成 本 函数 


损失 函数 (Loss function) 是 用 于 衡量 模型 在 单个 训练 样本 上 的 表现 情况 的 ， 而 成 本 函数 (cost function) 则 用 于 针对 全 部 训练 样本 的 模型 训练 过 程 中 ， 它 的 定义 如 下 : 


J(w,D)= me = 一定 | logy +(1-y" )log(1-2°)| (3-5 ) 


成 本 函数 是 基于 所 有 样本 的 总 成 本 。 训 练 Logistic 回 归 模 型 最 终 目的 就 是 希望 训练 出 一 组 适合 的 参数 w 和 b， 使 得 成 本 函数 最 小 化 ， 从 而 达到 较 高 的 预测 准确 率 的 目标 。 
在 了 解 了 损失 函数 和 成 本 函数 之 后 ， 具 体 该 如 何 使 用 它们 来 对 参数 w 和 b 进 行 优 化 呢 ” 这 就 需要 使 用 梯度 下 降 方 法 对 参数 w 和 b 进 行 逐步 迭代 优化 。 


注意 ”由 于 业界 并 没有 明确 地 区 分 损失 函数 和 成 本 函数 ， 在 通常 情况 下 这 两 个 名 词 使 用 较 混 乱 ， 在 本 书 中 规定 损失 函数 是 针对 单个 样本 的 定义 的 ， 而 成 本 函数 是 针对 全 体 训练 样本 定义 的 ， 它 指 的 是 平 
均 成 本 。 


3.1.3 ”Logistic 回归 的 梯度 下 降 


在 开始 具体 讨论 之 前 ， 首 先 介绍 一 个 重要 概念 ， 那 就 是 计算 图 (computation graph) 。 前 文 图 3-1 是 单 层 的 Logistic 回 归 的 基本 示意 图 。 将 其 中 的 更 多 细节 展示 出 来 绘制 成 新 图 就 可 以 得 到 图 3-3。 可 
以 观察 到 系统 的 输入 值 由 两 部 分 组 成 ， 样 本 的 特征 向 量 和 算法 参数 。 样 本 的 特征 向 量 为 x= (x1，x2) ， 参 数 包含 权重 向 量 w= (w1，w2) 和 偏 置 b。 将 这 些 数据 进行 两 步 运算 ， 线 性 变换 和 非 线 性 变换 。 首 


先是 线性 变换 生成 中 间 值 z， 然 后 经 过 o (z) 非 线 性 变换 得 到 预测 值 了 。 为 了 和 y 作 区 分 ， 下 文 用 a 代 蔡 了 了 表示 预测 值 。 最 后 将 预测 值 3 和 真实 值 传 给 函数 损失 函数 L， 求 得 二 者 的 差 值 。 这 个 表明 了 整个 算法 计 
算 过 程 的 图 就 是 计算 图 。 


计算 图 有 两 点 注意 事项 需要 特别 说 明 。 首 先 计 算 图 中 每 一 个 矩形 或 者 圆圈 都 称 作 一 个 节点 ， 节 点 代表 的 是 一 个 运算 的 结果 ， 而 箭头 表示 数据 的 流动 方向 同时 也 表示 一 个 计算 过 程 。 其 次 ， 计 算 图 只 关心 
数据 的 流动 和 计算 结果 ， 不 关心 计算 的 复杂 度 。 事 实 上 图 3-1 也 是 一 个 计算 图 。 


tb L (a, ») 


习 国 回 且 外 
加 2 | 一 


图 3-3 Logistic 回归 计算 图 
1. 单 个 训练 样本 的 梯度 下 降 计 算 过 程 
通过 求解 偏 导 数 的 方式 来 执行 梯度 下 降 过 程 。 单 个 样本 的 梯度 下 降 是 比较 容易 理解 的 。 回 忆 梯 度 下 降 中 w 人 迭代 更 新 的 算法 公式 : 


dw 


观察 上 式 ， 其 中 包含 表示 成 本 函数 对 w 的 偏 导 数 。 上 式 可 以 简写 作 w=w-adw。 为 了 更 清楚 地 说 明 其 过 程 ， 这 里 以 w1 为 例 。 首 先 求 出 dw1， 然 后 根据 公式 w=w-adw 来 更 新 参数 w1。 根 据 链 式 法 则 ， 可 
以 得 到 梯度 dw1 的 计算 公式 : 


dw da dz dw 


式 中 , 将 am 计算 分 解 为 = 个 步骤 ,顺序 求解 da，dz 和 dw1。 经 过 计算 可 知 : 


一 (3-8 ) 


dz = 一 一 一 一 = 一 :一 = (1-a)da=a—y (3-9 ) 


注意 ，dz=a-y 这 个 计算 结果 十 分 有 用 ， 记 住 它 可 以 让 许多 梯度 计算 步骤 变 得 简单 。 继 续 求 dw1， 最 终 得 到 : 


dL(a,y) aL(a,y) da dz 
dw = 一 一 一 和 = 一 一 一 = Xdz= 一 
加 dw da dz dw 7 (a-y) Dn 


求解 dqw1 后 ， 再 更 新 参数 w1=w1-cdw1。 这 样 就 利用 梯度 下 降 完 成 了 参数 w1 的 一 次 更 新 。 同 理 ， 也 可 以 求 得 ; 


dwW2=X2dz，VW2=W2 一 0dw> ( 3-11) 
db=dz, p=b—adb ( 3-12 ) 


上 述 步骤 完成 了 一 次 针对 单个 样本 的 更 新 步骤 ， 但 在 实际 问题 中 ， 往 往 有 数量 庞大 的 样本 。 下 一 小 节 将 介绍 如 何在 含有 多 个 训练 样本 的 样本 集中 使 用 梯度 下 降 方 法 。 
2. 多 个 训练 样本 的 梯度 下 降 计算 过 程 


对 于 多 个 训练 样本 的 梯度 下 降 其 实 是 对 单个 样本 情况 的 扩展 ， 仍 旧 以 参数 w1 为 例 ， 求 解 梯度 值 dw1， 则 : 


[i) (7) 
dJ (wb) 1 da ,y 
dm = 0) i 


Ww m dw 


需要 注意 的 是 ， 此 时 的 dw1 不 同 于 上 一 小 节 中 单个 训练 样本 的 梯度 值 ， 而 是 表示 的 是 全 局 梯度 值 ， 它 等 于 每 个 训 | 练 样本 的 w1 梯 度 值 的 求 和 平均 。 计 算出 dw1 之 后 ， 同 样 使 用 公式 w1=W1-Qdw1， 对 参数 
w1 进 行 迭 代 更 新 即 可 。 同 理 ， 我 们 可 以 求 出 全 局 梯度 值 dw2 和 db， 并 对 它们 进行 更 新 : 


(3-13 ) 


dW = 一 一 一 = 一 》 一 一 = 志 一 cdw (3-14 ) 


dL at 二 
pb) Ly) ,a ( 3-15) 
db m dp 


概括 起 来 ， 多 个 训练 样本 的 梯度 下 降 其 实 就 是 计算 各 个 参数 针对 成 本 函数 J 的 全 局 梯度 值 ， 并 以 此 来 更 新 参数 ， 基 本 思想 与 单个 训练 样本 的 梯度 下 降 一 致 ， 不 同 之 处 在 于 ， 多 个 训练 样本 的 梯度 下 降 的 计 
算是 将 各 个 样本 的 参数 梯度 值 做 求 和 平均 ， 相 当 于 考虑 了 成 本 对 于 多 个 训练 样本 的 整体 情况 ， 用 通俗 的 话 来 说 ， 可 以 理解 为 多 个 训练 样本 的 梯度 下 降 “考虑 ”得 更 多 。 在 多 次 迭代 更 新 后 ， 各 个 参数 将 逐渐 
逼近 全 局 最 优 解 或 者 得 到 全 局 最 优 解 。 

上 述 内 容 描述 了 多 个 训练 样本 的 梯度 下 降 的 计算 过 程 ， 但 事实 上 仍 有 相当 大 的 优化 空间 。 不 难 发 现 ， 在 实现 多 个 训练 样本 的 梯度 下 降 过 程 中 会 谋 套 两 个 循环 ， 第 一 个 循环 用 于 遍历 所 有 训练 样本 ， 需 要 
计算 每 个 训练 样本 的 梯度 值 之 后 才 可 以 做 求 和 平均 来 计算 全 局 梯度 值 ， 而 第 二 个 循环 用 于 遍历 所 有 待 训练 的 参数 ， 逐 一 计算 它们 的 梯度 值 ， 这 两 个 循环 是 先后 谋 套 的 关系 。 

在 实际 应 用 中 ， 深 度 学 习 算 法 需要 的 训练 数据 集 往往 是 十 分 庞大 的 ， 并 且 通 常会 有 大 量 的 特征 ， 意 味 着 会 有 大 量 的 待 训练 参数 。 在 大 数据 量 的 计算 中 ， 使 用 循环 会 明显 降低 算法 效率 ， 庆 笠 的 是 可 以 利 
用 向 量化 (Vectorization) 来 消除 或 替代 它们 ， 从 而 提高 工作 效率 。 在 下 一 小 节 我 们 将 使 用 向 量化 的 方式 ， 优 化 上 述 计算 过 程 。 


3.Logistic 回 归 的 向 量化 

向 量化 在 深度 学 习 中 的 应 用 十 分 广泛 ， 它 是 提升 计算 效率 的 主要 手段 之 一 ， 在 1.3.1 节 中 也 已 经 简单 证 明了 向 量化 对 于 代码 效率 的 提升 作用 ， 通 过 和 矩阵 相 乘 来 代 蔡 循 环 遍历 的 逐个 相 乘 可 以 极 大 缩短 计算 
时 间 。 而 缩短 每 次 训练 的 时 间 是 十 分 有 意义 的 ， 当 可 用 工作 时 间 不 变 的 情况 下 ， 更 短 的 单 次 训练 时 间 可 以 让 程序 员 有 更 多 地 测试 机 会 ， 进 而 更 里 更 好 地 调整 神经 网 络 结构 和 参数 。 

回顾 上 一 小 节 中 提 到 的 在 多 个 训练 样本 的 梯度 下 降 中 的 两 个 循环 。 第 一 个 循环 用 于 遍历 所 有 训练 样本 ， 而 第 二 个 循环 用 于 遍历 所 有 参数 。 这 两 个 循环 是 耗 时 大 户 ， 那 么 如 何 使 用 向 量化 技术 提升 代码 效 
率 呢 ? 

首先 ， 可 以 通过 向 量化 的 方式 来 消除 遍历 所 有 参数 时 使 用 的 循环 。 原 先 ， 要 计算 各 个 参数 的 全 局 梯度 值 则 需要 循环 累加 各 个 参数 的 梯度 值 dw1，dw2，...，dwn。 而 向 量化 的 方法 则 引入 向 量 dw 来 表示 
所 有 的 梯度 值 dw1，dw2，...，dwn， 其 中 dw 为 nxx 1 维 向 量 ，nx 表 示 的 是 样本 的 特征 维度 ， 也 就 是 除去 参数 b 之 外 的 参数 个 数 。 现 在 ， 可 以 直接 使 用 向 量 操作 dw+=x (人 dz () 来 代替 前 述 的 逐个 求 和 的 繁 
琐 计 算 。 这 样 一 来 ， 利 用 向 量化 蔡 代 了 原先 的 循环 ， 不 用 显 式 地 人 遍历 所 有 样本 特征 ， 并 且 从 硬件 的 角度 来 看 ， 和 矩阵 运算 充分 发 挥 了 GPU 的 并 行 计算 能 力 ， 充 分 提升 了 代码 运算 效率 。 

然后 ， 集 中 精力 使 用 向 量化 技术 消除 另 一 个 循环 ， 即 用 来 遍历 所 有 训练 样本 的 循环 。 

第 一 步 ， 将 线性 变换 过 程 改写 为 向 量化 。 对 于 每 一 个 样本 有 z 人 =wTx 人 +b， 其 中 z 表 示 线性 组 合 的 结果 (计算 过 程 中 的 中 间 值 ) w 表示 一 个 权重 向 量 ，x 表 示 一 个 输入 样本 的 特征 向 量 ，b 表 示 偏 
置 。 当 把 视角 放 到 所 有 样本 的 时 候 ， 就 可 以 把 公式 改写 为 : Z=wIX+b,， 其 中 , Z= (z (1) ，z (2) ..,z ()，..，z m) ) 是 一 个 向 量 ， 其 中 的 每 个 分 量 是 一 个 样本 线性 组 合 后 的 结果 (计算 过 程 中 的 中 间 
值 ) ，X= (x 1) ，x (3 …，x 中 ，...，x (n) ) 是 一 个 矩阵 ， 其 中 的 每 个 向 量 是 一 个 输入 样本 特征 向 量 ， 所 以 可 以 将 Z 表 示 为 Z= (wlx (1) +b, wx (2) +b, ..., wlx (0) +b， 

wiIx (n) +b) =wTIX+b。 

第 二 步 ， 将 激活 过 程 改写 为 向 量化 。 在 完成 了 线性 变换 后 ， 进 行 非 线性 变换 。 对 于 每 一 个 样本 有 a () =sigmoid (z 0 ) ， 其 中 a 0) 表示 该 样本 的 预测 值 。 当 把 视角 放 到 所 有 样本 的 时 候 ， 就 可 以 把 公 
式 改写 为 A=sigmoid (Z) ， 其 中 A= (a (1) ，a (2) ...，a 人 ，...a (nm) ) 表示 一 个 向 量 其 中 的 每 一 个 分 量 是 一 个 输入 值 对 应 的 预测 值 。 这 样 通过 一 行 代码 就 能 实现 所 有 样本 的 激活 过 程 。 

第 三 步 ， 做 偏 导数 的 向 量化 。 回 顾 之 前 的 内 容 ， 如 果 只 考虑 一 个 样本 ， 那 么 公式 dz () =a 由 ) -y () 成 立 。 当 需要 同时 考虑 所 有 样本 时 ， 可 以 将 多 个 dz 向 量 组 成 一 个 矩阵 
dZ= (dz (1) ，dz (2) ...，dz @ ，...dz On) ) 。 同 样 的 道理 ， 将 每 个 样本 的 真实 值 组 成 一 个 向 量 Y= (y () ，y (2) ..，y 0 ，..y m) ) 。 那 么 dz 就 可 以 用 A 和 Y 来 表示 了 ，dZ=A-Y= (a (1) - 
y (1) ,a @O) -y C) .a 0 -y 0 ，..a (m -y (n) ) 。 这 也 就 是 说 ， 完 全 可 以 通过 向 量 A 和 向 量 Y 来 计算 dZ。 在 代码 实现 的 层面 来 看 ， 只 要 构造 出 A 和 Y 这 两 个 向 量 ， 就 可 以 通过 一 行 代码 直接 计算 出 


dZ， 而 不 需要 通过 for 循 环 逐个 计算 。 


第 四 步 ， 求 出 梯度 中 权 值 w 的 向 量化 表示 。 再 回顾 之 前 关于 梯度 dw 和 db 的 计算 ， 它 们 的 实际 计算 过 程 分 别 如 下 : 


dw=0 dbp=0 
dw+ = x dz dp+ 二 dzt! 
dp 十 一 x( dzt” dp+ = dz 


dw+ = Xx" dz(" db+ = dz 人 


通过 观察 可 知道 ， 上 述 的 计算 过 程 完 全 可 以 使 用 向 量 操作 蔡 代 。dw 的 计算 过 程 其 实 就 是 样本 和 矩阵 X 与 梯度 矩阵 dZ 的 转 置 和 矩阵 相 乘 ， 将 计算 结果 除 以 训练 样本 数 m 得 到 平均 值 ， 这 样 就 得 到 了 全 局 梯度 值 
dw， 所 以 将 计算 过 程 表示 如 下 : 


dw = xXdz 


1 
| 
A) 90 x xf dz dz0) .dz 四 ( 3-16) 
1 
_ 工 [xDdz0 xdz2) xqdz" 
In 


第 五 步 ， 求 出 梯度 中 偏 置 b 的 向 量化 表示 。 再 观察 db 的 计算 过 程 ， 其 实 更 为 简单 ， 将 每 个 训练 样本 的 dz 相 加 后 ， 再 除 以 m， 即 可 得 到 全 局 梯度 值 db。 在 Python 代 码 中 ， 只 需要 使 用 Numpy lib 库 提供 的 
numpy.sum () ， 一 行 简单 代码 就 可 以 完成 db 的 计算 : 


1 
db=— yd 


| ( 3-17 ) 
= 一 numpy.sum( dZ ) 
m 


第 六 步 ， 对 梯度 dw 和 db 做 平均 ， 在 Python 中 将 向 量 dw 和 向 量 db 分 别 除 以 m 即 可 ， 即 dw/=m 和 db/m，Python 会 自动 使 用 广播 机 制 ， 令 向 量 dw 中 的 值 统一 除 以 m。 
第 七 步 ， 根 据 全 局 梯度 dw 和 db 来 更 新 参数 w 和 b， 同 样 ， 在 Python 中 可 以 直接 方便 地 使 用 向 量化 操作 w=w-udw 以 及 b=b-udb 来 更 新 参数 ， 其 中 u 代 表 学 习 率 。 
以 上 七 个 步骤 便 是 Logistic 回 归 梯 度 下 降 算 法 的 向 量化 实现 ， 通 过 向 量化 的 方式 不 仅 提升 了 效率 ， 还 从 直观 上 看 起 来 简洁 易 懂 了 许多 。 


准备 好 了 Logistic 回 归 模 型 的 理论 知识 ， 接 下 来 进入 实战 部 分 ， 利 用 Logistic 回 归 实现 对 猫 的 识别 。 


3.2 ”实现 Logistic 回 归 模 型 


在 这 一 节 中 ， 将 从 理论 学 习 转 入 编程 实战 部 分 ， 分 别 使 用 Python 的 Numpy lib 库 和 PaddlePaddle 实 现 Logistic 回 归 模型 来 解决 识别 猫 的 问题 ， 读 者 可 以 一 步 步 跟 随 内 容 完成 训练 ， 加 深 对 上 述 理论 内 容 
的 理解 并 串联 各 个 知识 点 ， 收 获 对 神经 网 络 和 深度 学 习 概 念 的 整体 把 握 。 


首先 ， 由 于 识别 猫 问 题 涉及 图 片 处 理 知识 ， 这 里 对 计算 机 如 何 保存 图 片 做 一 个 简单 的 介绍 。 在 计算 机 中 ， 图 片 的 存储 涉及 通道 的 知识 ，RGB 分 别 代表 红 、 绿 、 蓝 三 个 颜色 通道 ， 假 设 图 片 是 64x 64 像 素 
的 ， 则 图 片 由 3 个 64x 64 的 矩阵 表示 ， 定 义 一 个 特征 向 量 X， 忽 略图 片 的 结构 信息 ， 所 有 的 数值 输入 特征 向 量 X 当 中 ， 则 X 的 维度 为 3x64x 64=12288 维 。 Et 
训练 数据 ， 如 图 3-4 所 示 。 
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图 3-4 图片 处 理 


了 解 了 基本 的 图 片 处 理 概念 ， 接 下 来 开始 进入 代码 讲解 部 分 。 


3.2.1 ”Python 版 本 


这 一 小 节 介绍 如 何 使 用 Python 的 Numpy lib 库 实现 Logistic 回 归 模 型 来 识别 猫 。 在 实现 过 程 中 ， 读 者 将 会 学 习 到 神经 网 络 基本 结构 的 配置 ， 其 中 的 关键 知识 点 包括 初始 化 参数 、 计 算 成 本 、 计 算 梯度 、 
优化 参数 。 需 要 注意 的 是 ， 在 具体 的 编码 实现 中 会 大 量 用 到 Numpy lib 库 的 基本 操作 ， 不 熟悉 Numpy 操 作 的 读者 可 以 回顾 本 书 第 1 章 基础 部 分 的 Numpy 操 作 内 容 ， 方 便 后 续 的 学 习 。 下 面 就 进入 编程 实战 部 
a 


1. 库 文件 

首先 ， 载 入 几 个 需要 用 到 的 库 ， 它 们 分 别 是 

. numpy: 一 个 python 的 基本 库 ， 用 于 科学 计算 ; 

matplotlib.pyplot: 用 于 生成 图 ， 在 验证 模型 准确 率 和 展示 成 本 变化 趋势 时 会 使 用 ; 
.utils: 定义 了 load_data_sets () 方法 用 于 载 入 数据 。 

引入 库 文件 的 代码 如 代码 清单 3-1 所 示 。 


代码 清单 3-1 引用 库 文件 


import matplotlib.pyplot as pilt 
import numpy as np 


import utils 


2. 载 入 数据 

猫 的 图 片 数据 集 以 hdf5 文 件 的 形式 存储 ， 包 含 了 如 下 内 容 : 

. 训练 数据 集 : 包含 了 train_num 个 图 片 的 数据 集 ， 数 据 的 标签 (Label) 分 为 cat (y=1) 和 non-cat (y=0) 两 类 。 

` 测试 数据 集 : 包含 了 test_num 个 图 片 的 数据 集 ， 数 据 的 标签 (Label) 同 (1) 。 

单个 图 片 数 据 的 存储 形式 为 (px_num，px_num，3) ， 其 中 px_num 表 示 图 片 的 长 或 宽 (数据 集 图 片 的 长 和 宽 相 同 ) ， 数 字 3 表 示 图 片 的 三 通道 (RGB) 。 
在 代码 清单 3-2 中 使 用 一 行 代 码 来 读 取 数据 ， 读 者 暂 不 需要 了 解数 据 的 读 取 过 程 ， 只 需 调用 utils.load_data_sets () 方法 ， 并 存储 5 个 返回 值 ， 以 便 后 续 的 使 用 。 


代码 清单 3-2 ” 读 取 数 据 


# 读 取 数据 (cat/non-cat) 
X train, Y train X test, Y test, classes = utils.load data sets() 


上 述 数 据 共 包 含 5 个 部 分 ， 分 别 是 训 | 练 和 测试 数据 集 X_train、X _test 以 及 对 应 的 标签 集 Y_train，Y_test， 还 有 一 个 分 类 列表 classes。 以 训练 数据 集 X_train 为 例 ， 其 中 每 一 行 都 是 一 个 表示 图 像 的 三 维 数 


3. 数 据 预 处 理 


获取 数据 后 的 下 一 步 工作 是 获得 数据 的 相关 信息 ， 如 训练 样本 个 数 train_num、 测 试 样本 个 数 test_num 和 图 片 的 长 度 或 宽度 px_num， 如 代码 清单 3-3 所 示 是 使 用 numpy.array.shape 来 获取 数据 的 相关 


代码 清单 3-3 ”获取 数据 相关 信息 


# 获取 数据 相关 信息 

train num = X train.shape[0] 
test num = X test.shape[l0] 

# 本 例 中 num px=64 

px num = X train.shapell] 


接 下 来 需 步 处 理 数据 ， 为 了 便于 训练 ， 可 以 忽略 图 片 的 结构 信息 ， 将 包含 图 像 长 、 宽 和 通道 数 信息 的 三 维 数组 压缩 成 一 维 数组 ， 图 片 数据 的 形状 将 由 (64，64，3) 转化 为 (64x64x3，1) ， 
代码 清单 3-4 给 出 了 转换 数据 形状 的 方式 。 


代码 清单 3-4 ”转换 数据 形状 


# 转换 数据 形状 

data dim = px num * px num * 3 

X train = X train.reshape (train num, data dim).T 
xX test xX test.reshape (test num, data _dim) . TT 


HU 


在 开始 训练 之 前 ， 还 需要 对 数据 进行 归 一 化 处 理 。 图 片 采 用 红 、 绿 、 赣 三 通道 的 方式 来 表示 颜色 ， 每 个 通道 的 单个 像素 点 都 存储 着 一 个 0 ~ 255 的 像素 值 ， 所 以 图 片 的 归 一 化 处 理 十 分 简单 ， 只 需要 将 类 
据 集中 的 每 个 值 除 以 255 即 可 ， 但 需要 注意 的 是 结果 值 应 为 float 类 型 ， 直 接 除 以 255 会 导致 结果 错误 ， 在 Python 中 除 以 255. 即 可 将 结果 转化 为 float 类 型 ， 代 码 清单 3-5 给 出 了 数据 归 一 化 过 程 。 


代码 清单 3-5 ”数据 归 一 化 


X train = X train / 255. 


X test = X test / 255. 


4. 模 型 结构 
完成 了 数据 处 理工 作 ， 下 面 开 始 进入 模型 训练 过 程 。 其 中 有 5 个 关键 步骤 分 别 为 : 
.初始 化 模型 参数 
.前 向 传播 和 后 向 传播 
利用 梯度 下 降 更 新 参数 
利用 模型 预测 
:分析 预测 结果 


首先 ， 实 现 Sigmoid () 激活 函数 如 代码 清单 3-6 所 示 ， 较 为 简单 ， 注 意 ， 没 有 使 用 match.exp 函 数 来 实现 是 因为 math.exp () 函数 不 支持 向 量 计算 ， 而 这 里 需要 用 到 向 量 计 算 


代码 清单 3-6 ”Sigmoid 激 活 函 数 


def sigmoid (x): 
return 1 / (1 + np.exp (-X) ) 


接 下 来 开始 初始 化 模型 参数 ， 定 义 函 数 initialize_parameters () 如 代码 清单 3-7 所 示 ， 首 先 使 用 numpy.zeros () 将 w 初 始 化 为 (data_dim，1) 形状 的 零 向 量 ， 其 中 data_dim 表 示 wW 参 数 的 个 数 , 它 


的 值 等 于 训练 数据 的 特征 数 ， 即 每 张 图 片 的 像素 点 个 数 。 然 后 再 将 b 初 始 化 为 0 即 可 。 
代码 清单 3-7 ”初始 化 模型 参数 


def initialize parameters (data dim): 

# 将 W 和 初始化 为 (data dim，1) 形 状 的 零 向 量 ， 其 中 gata _ dim 表示 W 参 数 个 数 
# 将 5 初始 化 入 

W = np.zeros((data dim, 1), dtype = np.float) 

b=0 


return W, b 


初始 化 模型 参数 后 ， 接 下 来 定义 前 向 传播 和 后 向 传播 过 程 ， 这 两 个 过 程 包含 在 forward_and_backward_propagate () 浮 数 中 。 


函数 forward and backward_propagate () 的 关键 内 容 是 计算 成 本 函数 (cost) 和 梯度 (gradient) ， 具 体 的 实现 如 代码 清单 3-8 所 示 ， 其 中 m=X.shape[1] 表 示 样 本 数 ，A 表 示 预 测 结果 ，cost 表 示 
成 本 函数 ，dW 和 db 分 别 表示 对 应 的 梯度 ， 这 几 个 值 的 计算 步骤 已 经 在 向 量化 小 节 中 做 了 详细 说 明 ， 这 里 不 再 袭 述 。 


代码 清单 3-8 ”前 向 传播 


def forward and backward propagate (W, b, X, Y): 


计算 成 本 cost 和 梯度 grads 


Args: 
W: 权重 ， (num px * num px * 3，1) 维 的 numpy 数 组 
b: 偏 置 bpias， 标 量 
X: 数据 ， 形 状 为 (num px * num px * 3, nunmber of examples) 

Y: 数据 的 真实 标签 (包含 值 0 if non-cat，1 if cat) ， 形 状 为 (1，number of examples) 


Return: 
cost: 逻辑 回归 的 损失 函数 
dW: cost 对 参数 W 的 梯度 ， 形 状 与 参数 W 一 致 
db: cost 对 参数 pb 的 梯度 ， 形 状 与 参数 pb 一 臻 


# m 为 数据 个 数 
m = X.shapelll] 


# 前 向 传播 ， 计 算 成 本 函数 
2 = np.dot(W.T,X) + b 
A = sigmoid (2Z) 
dZ2zZ=A-Y 


cost = np.sum(-(Y * np.log(A) + (1 ~- Y) * np.log(1 - A))) /m 


# 后 向 传播 ， 计 算 梯 度 


dW = np.qot(X，Qq2.T) / m 
db = np.sum(dZ2) / m 
cost = np.squeeze (cost) 


grads = { 
"GW" :AgW, 
nqgb" :db 
} 


return grads, cost 


定义 了 成 本 函数 和 梯度 的 计算 过 程 后 ， 定 义 一 个 参数 更 新 国 数 update_parameters () 来 利用 梯度 dW 和 db 进行 参数 的 一 次 更 新 ， 关 键 内 容 为 调用 forward_and_backward_propgate () 函数 获取 梯 
度 值 dW、db 和 cost， 并 根据 梯度 值 来 更 新 参数 W 和 b。 以 W 为 例 ， 具 体 更 新 过 程 为 N=W-learning_rate*dW， 上 有 具体 实现 如 代码 清单 3-9 所 示 : 


代码 清单 3-9 ”一 次 参数 更 新 


def update parameters (X, Y, W, b, learning rate): 


grads, cost = forward and backward propagate(X, Y, W, b) 
W= Wo— learning rate * grads['dW'] 
b= b— learning rate * grads['db'] 


return W, b, cost 


接 下 来 定义 优化 函数 train () ， 根 据 迭 代 次 数 iteration_nums 调 用 update_parameters () 函数 对 参数 进行 迭代 更 新 ， 有 具体 实现 如 代码 清单 3-10 所 示 。 注 意 ， 在 参数 更 新 过 程 中 维护 一 个 成 本 数组 
costs， 每 一 百 次 迭代 记录 一 次 成 本 ， 便 于 之 后 绘图 分 析 成 本 变化 趋势 。 


代码 清单 3-10 ”梯度 下 降 更 新 参数 


# 使 用 梯度 下 降 更 新 参数 W,b 


def train(W, b, X, Y, iteration nums , learning rate): 


使 用 梯度 下 降 算 法 优化 参数 mw 和 Pb 


Args: 
W: 权重 ， (num px * num px * 3，1) 维 的 numpy 数 组 
b: 偏 置 bias， 标 量 
数据 ， 形 状 为 (num px * num px * 3, number of examples) 
: 数据 的 真实 标签 (包含 值 0 iF non-cat，1 if cat) ， 形 状 为 (1, number of examples) 
0 优化 的 迭代 次 数 
learning rate: 梯度 下 降 的 学 习 率 ， 可 控制 收敛 速度 和 效果 


Returns: 
params: 包含 参数 W 和 pb 的 python 字 典 
costs: 保存 了 优化 过 程 cost 的 1ist， 可 以 用 于 输出 cost 变 化 曲线 


costs = [] 
for i in range (iteration nums) : 
W, b, cost = update Parameters (X, Y, W, b, learning rate) 
# 每 一 百 次 迭代 ， 打印 一 次 cost 
if i % 100 = 
| 
print ("Iteration %d, cost $f" $% (i, cost)) 


params = { 
Ww “ W, 
lie) 1 。 b 
} 


return params, costs 


5. 模 型 检验 


以 上 内 容 完成 了 模型 的 训练 过 程 ， 得 到 了 最 终 的 参数 W 和 b， 接 下 来 实现 predict image () 遂 数 ， 使 用 训练 完成 的 模型 进行 预测 ， 具 体 实现 如 代码 清单 3-11 所 示 ， 输 入 参数 W 和 b 以 及 测试 数据 集 X， 
预测 结果 A， 并 将 连续 值 A 转化 为 二 分 类 结果 0 或 1， 存 储 在 predictions 中 。 


代码 清单 3-11 使 用 模型 预测 结果 


# 使 用 模型 进行 预测 
def predict image (W, b, X): 


j 学 习 到 的 逻辑 回归 模型 来 预测 


而 


片 是 否 为 猫 (1 cat or 0 non-cat) 


Args: 
W: 权重 ， (px num * px num * 3，1) 维 的 numpy 数 组 
b: 偏 置 bias， 称 量 
X: 数据 ， 形 状 为 (px num * px num * 3, number of examples) 


Returns: 


predictions: 包含 了 对 X 数 据 集 的 所 有 预测 结果 ， 是 一 个 numpy 数 组 或 向 量 


data dim = X.shapel[0] 
# m 为 数据 个 数 
m = X.shapelll] 


predictions = [] 

W=V I dim, 1) 

# 预测 结果 A 

A = sigmoid(np.dot (W.T, X) + b) 

# 将 连续 值 A 转 化 为 二 分 类 结果 0 或 1 

for i in range (m) : 

if A[O0, i] > 0.5: 

predictions.append (1) 

elif A[0, i] < 0.5: 
predictions.append (0) 


return predictions 


至 此 ， 上 述 内容 完 成 了 Logistic 回 归 模 型 的 训练 和 预测 过 程 ， 实 现 了 几 个 关键 函数 : 
sigmoid () : 激活 函数 。 

. initialize_parameters () : 初始 化 参数 w 和 b。 

- forward_and_backward_propagate () : 计算 成 本 cost 和 梯度 值 dw、db。 

“ update_parameters () : 利用 梯度 下 降 进 行 一 次 参数 更 新 。 


` train () : 利用 update_parameters () 函数 迭代 更 新 参 


.bredict image () : 使 用 模型 预测 结果 。 

,calc_accutacy () ; 计算 模型 预测 准确 度 。 

. plot_costs () : 绘制 学 习 曲 线 。 

6. 训 | 练 

上 述 内 容 完 成 了 数据 点 载 入 和 预 处 理 、 配 置 模型 结构 以 及 实现 模型 检验 所 需 的 相关 阔 数 ， 现 在 只 需 按 序 调用 这 些 国 数 即 可 完成 模型 的 训练 过 程 ， 具 体 实 现 如 代码 清单 3-12 所 示 : 


代码 清单 3-12 ”训练 


X train, Y train, X test, Y test, classes, px num = load data() 
”  # 迭代 次 数 
iteration nums = 2000 

# 学 习 率 
lJearning rate = 0.005 


# 特征 维度 
data dim = X train.shapel0] 
# 初始 化 参数 


W, b = initialize parameters (data dim) 


params, costs = train(X train, Y train, W, b, iteration nums, learning rate) 


predictions train = predict image (X 
X 


上 train params['W'], params['b']) 
predictions test = predict image ( est, params['W'], params['b']) 


print ("Accuracy on train set: {} %".format (calc accuracy (predictions train, Y train) ) ) 


print ("Accuracy on test set: {} %".format (calc accuracy (predictions test, Y test))) 


训练 结果 如 代码 清单 3-13 所 示 ， 输 出 成 本 cost 的 变化 并 输出 训练 准确 率 和 测试 准确 率 。 


代码 清单 3-13 ”训练 结果 


Iteration 0, cost 0.709947 
Iteration 100, cost 0.583778 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17642/0EBPS/Text/..http://www.hzcourse.com/resource/readBook?path=/openresources/teach ek 
Iteration 1800, cost 0.146477 

Iteration 1900, cost 0.140810 

Accuracy on train set: 99.043062201 % 


© 


Accuracy on test set: 70.0 $ 


训练 结果 显示 训练 准确 率 达 到 99%， 说 明 训 练 的 模型 可 以 准确 地 拟 合 训 练 数据 ， 而 测试 准确 率 为 70%， 由 于 训练 数据 集 较 小 并 且 Logistic 回 归 是 一 个 线性 回归 分 类 器 ， 所 以 70% 的 准确 率 已 经 是 一 个 不 错 
的 结果 。 


7. 预 测 
获得 预测 结果 后 ， 读 者 可 以 查看 模型 对 某 张 图 片 的 预测 是 否 准 确 ， 通 过 代码 清单 3-14 输 出 图 片 及 其 预测 的 分 类 结果 。 
代码 清单 3-14 ”单个 图 片 预 测 


# 分 类 正确 的 示例 

index = ] # index(1) is cat, index(14) is not a cat 
cat img = X test[:, index].reshape( (px num, px num, 3)) 
plt.imshow (cat img) 
plt.axis('off!" 


plt.show () 
print ("you predict that it's a ™" + Classesl! 
int (predictions test[index])] .decode ("utf-8") +" picture. Congrats!") 


输出 结果 如 代码 清单 3-15 所 示 ， 可 以 看 到 模型 对 这 张 图 片 的 分 类 正确 ， 将 猫 图 片 分 类 为 cat， 如 图 3-5 所 示 。 
代码 清单 3-15 ”预测 结果 


you predict that it's a cat picture. Congrats! 


图 3-5 “示例 图 片 


8. 学 习 曲 线 
现在 ,根据 之 前 保存 的 costs 输 出 成 本 的 变化 情况 ， 也 就 是 学 习 曲 线 ， 具 体 实现 如 代码 清单 3-16 所 示 。 


代码 清单 3-16 学习 曲线 


# 绘制 学 习 曲 线 


plot costs(costs, learning rate) 


输出 的 结果 如 图 3-6 所 示 。 


成 本 


0 5 10 15 20 
达 代 (每 百 次 迭 代为 一 个 单位 ) 


图 3-6 ”学 习 曲 线 


可 以 看 到 ， 图 中 的 成 本 随 着 迭代 次 数 的 增加 而 减 小 ， 这 说 明了 参数 W 和 |b 不 断 被 学 习 和 优化 。 


至 此 ，Logistic 回 归 模 型 的 Python 代码 实现 已 经 介绍 完毕 ， 相 信 读 者 对 Logistic 回 归 有 了 更 深刻 的 理解 和 把 握 ， 在 下 一 小 节 中 ， 将 介绍 如 何 使 用 PaddlePaddle 来 实现 Logistic 回 归 模 型 ， 了 解 深度 学 习 框 
架 的 优势 。 


3.2.2 PaddlePaddle 版 本 


上 一 节 中 用 Python 及 其 Numpy lib 库 实现 了 逻辑 回归 模型 并 完成 了 对 猫 的 识别 ， 本 节 将 介绍 如 何 使 用 PaddlePaddle 实 现 。 


PaddlePaddle 作 为 一 款 深度 学 习 框架 ， 从 使 用 的 便利 性 上 看 ， 它 降低 了 深度 学 习 的 入 门 门槛 ， 提 供 了 许多 基本 组 件 ， 这 些 组 件 如 同 积木 ， 使 用 者 无 须 考虑 神经 网 络 的 具体 细节 ， 只 需 根据 具体 任务 来 拱 
建 学 习 模 型 ， 从 性 能 方面 来 看 ，PaddlePaddle 的 底层 实现 支持 多 种 加 速 设备 ， 如 GPU， 缩 短 了 模型 训练 时 间 。 


读者 可 以 根据 本 节 内 容 进行 实验 ， 充 分 体会 使 用 深度 学 习 框 架 带 来 的 便利 。 
1. 库 文件 
首先 ， 载 入 需要 使 用 的 库 ， 除 了 需要 额外 引入 paddle.v2 库 来 使 用 PaddlePaddle 框 架 之 外 ， 其 他 库 与 Python 版 本 相同 ， 这 里 不 骨 歼 述 ， 具 体 如 代码 清单 3-17 所 示 。 


代码 清单 3-17 引用 库 文件 


import matplotlib 
matplotlib.use('Agg') 


import matplotlib.pyplot as plt 
import numpy as np 
import paddle.v2 as paddle 


import utils 


2. 载 入 数据 和 数据 预 处 理 


在 这 里 需要 定义 全 局 变量 TRAINING _SET、TEST_ SET、DATA_DIM 和 CLASSES 分 别 表 示 最 终 的 训练 数据 集 、 测 试 数 据 集 、 数 据 特 征 数 和 分 类 列表 ， 便 于 后 续 使 用 ， 实 现 函 数 load data () 。 代 码 逻 辑 
跟 使 用 Numpy 的 版 本 类 似 ， 不 再 歼 述 。 


3. 定 义 reader 


定义 train () 和 test () 函数 来 分 别 读 取 训练 数据 集 TRAINING_SET 和 测试 数据 集 TEST_SET， 需 要 注意 的 是 ，yield 关 键 字 的 作用 与 return 关 键 字 类 似 ， 但 不 同 之 处 在 于 yield 关 键 字 让 reader () 变 成 
一 个 生成 器 (generator) ， 生 成 器 不 会 创建 完整 的 数据 集 列表 ， 而 是 在 每 次 循环 时 计算 下 一 个 值 ， 这 样 不 仅 节省 内 存 空间 ， 而 且 符 合 reader 的 定义 ， 即 一 个 真正 的 读 取 器 。 


4. 初 始 化 


利用 之 前 定义 的 load_data () 函数 用 于 获取 并 预 处 理 数据 ， 然 后 进行 最 基本 的 初始 化 操作 ，paddle.init (use_gpu=False，trainer_count=1) 表示 不 使 用 GPU 进行 训练 并 且 仅 使 用 一 个 线程 进行 训 
练 ， 具 体 实 现 如 代码 清单 3-18 所 示 : 


代码 清单 3-18 ”初始 化 


# 获取 数据 并 预 处 理 
load aata () 


# 初始 化 


padqdlje.init (use gpu=False, trainer count=1) 


5. 配 置 网 络 结构 和 设置 参数 


开始 配置 网 络 结构 和 设置 参数 。 本 章 介 绍 过 Logistic 回 归 模 型 结构 相当 于 一 个 只 含 一 个 神经 元 的 神经 网 络 ， 所 以 在 配置 网 络 结 构 时 只 需 配 置 输入 层 image、 输 出 层 y_predict 和 标签 数据 层 y_ label 即 可 。 
实现 network_config () 函数 来 配置 网 络 结构 并 设置 参数 ， 具 体 实 现 如 代码 清单 3-19 所 示 。 


代码 清单 3-19 ”配置 网 络 结构 


# 配置 网 络 结构 和 设置 参数 


def network config() : 


image = paddle.layer.datal( 
name='image', type=paddle.data type.dense Vector (DATADIM)) 


y predict = paddle.layer.fc( 
input=ijmage, size=1, act=paddle.activation.Sigmoid()) 


y_ label = paddle.1layer.data( 
name='label', type=paddle.data type.dense vector (1)) 
# 定义 成 本 函数 


cost = paddle.layer.multi binary label cross entropy cost (input=y predict, label=y label) 


# 利用 cost 创 建 parameters 
parameters = paddle.parameters.create (cost) 


# 创建 optimizer， 并 初始 化 momentum 和 learning rate 
optimizer = paddle.optimizer.Momentum (momentum=0, learning rate=0.00002) 


# 数据 层 和 数组 索引 映射 ， 用 于 trainer 训 练 时 喂 数据 
feeding = { 

'ijmage': 0, 

'label': 1} 


输入 层 image=paddle.1layer.data (name="image”, type=paddle.data type.dense Vector 


输入 层 image=paddle.layer.data (name= “image”,， type=paddle.data type.dense vector (DATADIM) ) 表示 创建 一 个 数据 层 ， 名 称 为 “image”， 数据 类 型 为 DATADIM 维 向 量 ; 
输出 层 y_predict=paddle.layer.fc (input=image，size=1，act=paddle.activation.Sigmoid () ) 表示 生成 一 个 全 连接 层 ， 输 入 数据 为 image， 神 经 元 个 数 为 1， 激 活 函 数 为 Sigmoid () ; 
标签 数据 层 label=paddle.layer.data (name=“label”，type=paddle.data type.dense vector (1) ) 表示 生成 一 个 数据 层 ， 名 称 为 “label” ， 数 据 类 型 为 1 维 向 量 。 


network_config () 除了 实现 配置 网 络 结构 功能 外 ， 还 实现 了 定义 成 本 函数 、 创 建 和 初始 化 参数 、 定 义 优 化 器 等 功能 。 定 义 成 本 函数 ， 在 这 里 使 用 PaddlePaddle 提 供 的 交叉 业 损 失 函 
数 ，cost=paddle.layermulti binary label cross entropy cost (input=y _predict，label=y label) 定义 了 成 本 函数 ， 并 使 用 y_ predict 与 label 计 算 成 本 。 定 义 了 成 本 函数 之 后 ， 使 用 PaddlePaddle 提 供 
的 接口 parameters=paddle.parameters.create (cost) 来 创建 和 初始 化 参数 。 


参数 创建 完成 后 ， 定 义 参 数 优化 器 optimizer=paddle.optimizerMomentum (momentum=0，learning _rate=0.00002) ， 使 用 Momentum 作 为 优化 器 ， 并 设置 动量 momentum 为 零 ， 学 习 率 为 
0.00002。 注 意 ， 读 者 暂时 无 须 了 解 Momentum 的 含义 ， 在 之 后 的 模型 优化 章节 中 将 会 提 及 这 部 分 内 容 ， 现 在 只 需要 学 会 使 用 即 可 。 


feeding={ ‘image”: 0， ‘label” : 用 是 数据 层 名 称 和 数组 索引 的 映射 ， 用 于 在 训练 时 输入 数据 。 
6. 模 型 训练 
上 述 内 容 完成 了 网 络 结构 的 配置 和 初始 化 ， 接 下 来 利用 上 述 配置 进行 模型 训练 。 


首先 使 用 paddle.trainner.SGD () 定义 一 个 随机 梯度 下 降 trainer， 配 置 三 个 参数 cost、parameters、update equation， 它们 分 别 表示 成 本 cost、 参 数 parameters 和 优化 器 optimizer。 再 利用 
trainertrain () 即 可 开始 真正 的 模型 训练 。paddle.reader.shuffle (train () ，buf size=5000) 表示 trainer 从 train () 这 个 reader 中 读 取 了 buf size=5000 大 小 的 数据 并 打 乱 顺 
序 ，paddle.batch (reader () ，batch_size=256) 表示 从 打 乱 的 数据 中 再 取出 batch_size=256 大 小 的 数据 进行 一 次 迭代 训练。 参数 feeding 用 到 了 之 前 定义 的 feeding 索 引 ， 将 数据 层 image 和 标签 label 
输入 trainer， 也 就 是 训练 数据 的 来 源 。 参 数 event_handler 是 事件 管理 机 制 ， 读 者 可 以 自 定义 event_handler， 根 据 事件 信息 进行 相应 的 操作 ， 参 数 num_passes=5000 表 示 返 代 训 练 5000 次 后 停止 训练 。 具 
体 实现 如 代码 清单 3-20 所 示 : 


代码 清单 3-20 ”模型 训练 


# 构造 trainer 
trainer = paddle.trainer.SsSGD( 
Cost=cost, parameters=parameters, update equation=optimizer) 
# 模型 训练 
trainer.trainl( 
reader=paddle .batch ( 
paddle.reader.shuffle (train(), buf size=5000), 
batch size=256), 
feeding=feeding, 
event handler=event handler, 
num passes=5000) 


7. 模 型 检验 


模型 训练 完成 后 ， 接 下 来 对 模型 进行 检验 ， 实 现 几 个 工具 函数 来 帮助 实现 模型 检验 ， 它 们 分 别 是 get data () 、calc_accuracy () 和 infer () 函数 ， 分 别 用 于 获取 数据 、 计 算 模型 预测 准确 率 以 及 预 
测 。 首 先 我 们 定义 get_data () 函数 ， 用 来 获取 测试 数据 ， 具 体 实现 如 代码 清单 3-21 所 示 : 


代码 清单 3-21 ”获取 数据 


# 获取 data 
def get datal(data creator): 


接 下 来 定义 calc_accuracy 来 根据 预测 结果 计算 准确 度 accuracy， 将 原本 连续 的 
代码 清单 3-22 


# 计 入 
def 


使 用 参数 data_creator 来 获取 测试 数据 


Args: 

data creator -- 数据 来 源 ， 可 以 是 二 
Return: | 

result -- 包含 测试 数据 (image) 和 标 
data creator = data Creator 
data image = [] 
data label = [] 


for item in data Creator () : 
da 
da 


ta image.append ( (Item[ 
ta label.append (item[1 


) 


result = { 


"jimage": 
"label": 


} 


data image, 
data label 


return result 


根据 数 


Args: 


probs —- es 


计算 准确 度 


准确 度 


calc accuracy (probs, data): 


据 集 来 计算 准确 


度 accuracy 


data -- 数据 


Return: 


calc accuracy -- 训练 准 丰 
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paddle.infer () 函数 来 获取 预测 结果 ; 最 后 


# 将 纤 


for i 


吉 果 转化 为 二 分 类 结果 并 计生 


in range (len (probs) ) : 


] 
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0]， 
] 
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return accuracy 


float (total)) 


正确 的 结果 数量 


() 


thon 字 典 


fer () 来 获取 


* 100 


结果 转化 为 二 分 类 结果 ， 并 将 结果 存储 在 binary_result 中 ， 具 体 实现 如 代码 清单 3-22 所 示 : 


最 后 定义 infer () 函数 ， 用 于 预测 并 输出 模型 准确 率 ， 其 中 的 关键 步骤 分 为 三 步 ， 首 先 ， 利 用 刚刚 定义 的 get data () 函数 来 获取 训练 数据 集 和 测试 数据 集 ; 其 次 ,利用 PaddlePaddle 提 供 的 
结果 转化 为 二 分 类 结果 并 输出 模型 准确 率 train_accuracy 和 test accuracy， 具 体 实 现 如 代码 清单 3-23 所 示 : 


[M 维 稠密 | 句 寺 


i 


代码 清单 3-23 ”预测 并 输出 模型 准确 率 
# 预测 并 输出 模型 准确 率 
def infer(y predict, parameters): 
预测 并 输出 模型 准确 率 
Args: 
y_predict -- 输出 层 ，DATAD] 
parameters -- 训练 完成 的 模型 参数 
Return: 


至 此 ， 以 上 内 容 阐述 了 Logistic 回 归 的 训练 过 程 ， 并 定义 了 所 有 需要 用 到 的 函数 ， 现 在 


情况 。 


# 获取 测试 数据 和 训练 数据 ， 


train data = get data (train () ) 


# 根据 train data 和 test data 预测 


test 


t ()) 


data = get data (tes 


人 


来 验证 模型 准确 


吉 果 ，output layer 表 示 输 出 层 ，parameters 表 示 模 型 参数 ， 


， 使 用 刚刚 定义 的 calc_accuracy() 函数 来 将 纪 


train data[l'image'] 


test data[l'image'] 


probs train = paddle.infer( 
output layer=y predict, parameters=parameters, inpu 
) 
probs test = paddle.infer\( 
output Jayer=y predict, parameters=parameters, inpu 
) 
# 计算 train accuracy 和 test accuracy 
print ("train accuracy: {} %".f 
print ("test accuracy: {} %". 


ormat (calc accuracy (probs train, train data))) 
format (calc accuracy (probs test, test data))) 


口 重 


7 作 击 仕 


input 表 示 输 入 的 测试 数据 


在 main () 函数 中 按 需 调用 它们 即 可 。 需 要 注意 的 是 ， 代 码 中 的 costs 数 组 用 于 存储 cost 值 ， 


记录 成 本 变化 


函数 event_handler (event) 用 于 事件 处 理 ， 事 件 event 中 包含 batch_id、pass_id、cost 等 信息 ， 读 者 可 以 打印 这 些 信 息 或 进行 其 他 操作 。 浏 览 main () 函数 ， 读 者 可 对 PaddlePaddle 的 训练 过 程 
有 更 清晰 的 理解 ， 具 体 实现 如 代码 清单 3-24 所 示 : 


代码 清单 3-24 main 函数 


def 


mainl( 


定义 神经 网 络 结构 ， 


Args: 


) : 
训练 、 预 测 、 


Return: 


global DATADI 


# 载 入 数据 


# 初始 化 ， 设 置 是 否 使 月 


padqdl 


load 


data () 


检验 准确 率 并 


gpu, trainer 数 量 


打印 学 习 


e.init (use gpu=False, trainer count=1) 


# 配置 网 络 结构 和 设置 参数 


image, y predict, y label, cost, parame 


# 记录 成 本 cost 


Costs 


def 


[] 


# 处 理事 件 


event handler (event): 


ters, 


事件 处 理 器 ， 可 以 根据 训练 过 程 的 信息 作 相 应 操作 


Hl 线 


optimizer., 


ding = netconf 


ig() 


汪汪 


event -- 事件 对 象 ， 包 仿 event .pass id，event.batch id，event.cost 等 信息 
Return: 


中 
中 


if isinstance (event, paddle.event.EndIiteration): 
If event.pass id $ 100 == 0: 
print ("Pass %d, Batch %d, Cost %f" $ (event.pass id, event.batch id, event.cost)) 
costs.append (event .cost) 
with open('params pass %d.tar' % event.pass id, 'w') as f: 
parameters .to tar(f) 
# 构造 trainer， 配 置 三 个 参数 cost、parameters、update equation， 它 们 分 别 表示 成 本 函数 、 参 数 和 更 新 公式 。 
trainer = paddle.trainer.SsGD( 
Cost=cost, parameters=parameters, update equation=optimizer) 


trainer.trainl( 
reader=paddle .batch ( 
paddle.reader.shuffle (train(), buf size=5000), 
batch size=256), 

feeding=feeding, 

event handler=event handler, 

num passes=2000) 


# 预测 
infer(y predict, parameters) 


Logistic 回 归 模 型 的 训练 工作 完成 ， 运 行程 序 可 以 得 到 如 代码 清单 3-25 所 示 结 果 ， 预 测 结果 准确 率 与 Python 版 本 相似 ， 同 样 达到 了 70%， 所 以 PaddlePaddle 可 以 得 到 与 Python 预 测 准 确 率 相似 的 结 
果 ， 并 且 不 用 考虑 参数 的 初始 化 、 成 本 国 数 、 激 活 函 数 、 梯 度 下 降 、 参 数 更 新 和 预测 等 具体 细节 ， 只 需要 简单 地 配置 网 络 结构 和 trainer 即 可 ， 简 化 了 模型 训练 过 程 ， 同 时 可 以 使 用 PaddlePaddle 提 供 的 许多 
接口 来 改变 学 习 率 、 成 本 函数 、 批 次 大 小 等 许多 参数 来 改变 模型 的 学 习 效果 ， 更 加 灵活 ， 方 便 测试 。 


代码 清单 3-25 训 


练 结果 


Pass 0, Batch 0, Cost 0.718985 
Pass 100, Batch 0, Cost 0.497979 

Pass 200, Batch 0, Cost 0.431610 

Pass 300, Batch 0, Cost 0.386631 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17642/0EBPS/Text/..http://www.hzcourse.com/resource/readBook?path=/openresources/teach ek 
Pass 1600, Batch 0, Cost 0.178331 

Pass 1700, Batch 0, Cost 0.171367 

Pass 1800, Batch 0, Cost 0.164913 

Pass 1900, Batch 0, Cost 0.158914 
train accuracy: 98.5645933014 % 


© 


test accuracy: 70.0 % 


生计 下 雹 于 


8. 预 测 
读者 还 可 使 用 模型 对 单个 图 片 进行 预测 ， 利 用 calc_accuracy () 函数 中 计算 的 BINARY_RESULT 判 断 图 片 是 否 为 猫 ， 具 体 实 现 如 代码 清单 3-26 所 示 : 


代码 清单 3-26 ”单个 图 片 预测 


index = 12 

test data = get data (test () ) 

plt.imshow( (np.array (test datal'image'] [index])).reshape ((64, 64, 3))) 

plt.imshow (cat img) 

plt.axis ('off' 

plt.show () 

print (you predict that it's a \"" + CLASSES [BINARY RESULT[index]] .decode ("utf-8") + " picture. Congrats!") 


输出 结果 如 代码 清单 3-27 所 示 ， 可 以 看 到 使 用 PaddlePaddle 实 现 的 Logistic 回 归 模 型 对 这 张 图 片 的 分 类 也 正确 ， 将 猫 图 片 分 类 为 cat， 如 图 3-7 所 示 。 


代码 清单 3-27 ”单个 图 片 预 测 


you predict that it's a cat picture. Congrats! 


图 3-7 示例 图 片 


9. 学 习 曲 线 


最 后 ， 读 者 可 以 输出 成 本 的 变化 情况 ， 也 就 是 学 习 曲 线 ， 对 模型 进行 分 析 ， 具 体 实 现 如 代码 清单 3-28 所 示 : 


代码 清单 3-28 ”成 本 变化 


costs = np.squeeze (costs) 

plt.plot (costs) 

plt.ylabel ('cost') 

plt.xlabel ('iterations (Per hundreds)') 
plt.title("Learning rate = 0.00002") 
plt. show () 


结果 显示 如 图 3-8 所 示 。 


| 区 二 一 U.U00002 


00 25 50 75 100 125 150 17.5 


磷 代 (每 百 次 碗 代为 一 个 单位 ) 


图 3-8 ”成 本 变化 


本 章 小 结 


本 章 是 对 前 两 章 内 容 的 巩固 和 实践 扩展 ， 通 过 构造 简单 的 单 层 神经 网 络 ， 即 Logistic 回 归 模型 ， 将 理论 知识 转化 为 实际 应 用 ， 以 此 帮助 读者 形成 对 深度 学 习 的 整体 认识 ， 让 读者 熟悉 深度 学 习 的 核心 过 
程 ， 从 而 在 之 后 的 章节 中 更 容易 地 学 习 复 杂 的 神经 网 络 模型 和 深度 学 习 概念 。 


本 章 前 述 了 几 个 关键 知识 点 ， 首 先 概述 了 Logistic 回 归 模 型 的 概念 和 应 用 场景 ， 了 解 了 Logistic 回 归 模 型 的 结构 相当 于 只 有 一 个 神经 元 的 简单 神经 网 络 ， 它 被 广泛 用 于 二 分 类 问题 中 ， 例 如 肺癌 分 类 问 
题 。 之 后 讲解 了 Logistic 回 归 模型 应 该 采用 对 数 损失 函数 作为 损失 函数 ， 原 因 在 于 它 能 产生 吓 优 化 问题 ， 便 于 梯度 下 降 的 计算 。 结 合 Logistic 回 归 ， 分 别 讲解 了 对 单个 训练 样本 的 梯度 下 降 和 对 m 个 训练 样本 
的 梯度 下 降 ， 它 们 的 思想 在 于 逐步 更 新 参数 ， 让 损失 函数 往 减 小 的 方向 移动 ， 最 终 取 得 参数 最 优 值 。 之 后 阐述 了 向 量化 可 引入 和 矩 阵 运 算 并 且 能 够 充分 利用 机 器 性 能 的 优势 ， 从 而 对 计算 过 程 做 加 速 优 化 。 最 
后 ， 本 章 还 带领 读者 分 别 用 Numpy 和 PaddlePaddle 解 决 了 Logistic 回 归 模 型 对 猫 的 图 片 识别 问题 ， 两 者 的 主要 过 程 都 可 概括 为 四 步 : 数据 准备 与 预 处 理 、 配 置 网 络 、 训 练 和 预测 。 对 比 两 者 的 训练 过 程 和 结 
果 ,， 读者 会 发 现 PaddlePaddle 框 架 在 训练 过 程 中 具有 简单 、 高 效 、 灵 活 的 优势 。 下 一 章 将 进一步 深入 了 解 深度 学 习 ， 研 究 深 度 学 习 的 浅 层 网 络 。 


本 章 的 参考 代码 在 https://github.com/BaiduOSS/DeepLearningAndPaddleTutorial 下 lesson3 子 目录 下 。 


第 4 章 。” 浅 层 昼 经 网 络 


神经 网 络 是 深度 学 习 重 要 的 知识 点 ， 也 是 深度 学 习 区 分 于 传统 机 器 学 习 的 重要 标志 。 上 一 章 学 习 了 Logistic 回 归 和 损失 函数 等 相关 概念 ， 有 了 这 些 基础 ， 这 一 章 将 正式 介绍 神经 网 络 。 


将 介绍 神经 网 络 的 结构 、 计 算 ，BP 算 法 及 其 实践 。 在 神经 网 络 的 向 量化 计算 中 会 用 到 和 矩阵 运算 的 相关 知识 ，BP 算 法 则 还 需要 导数 的 相关 知识 ， 同 时 涉及 大 量 数 学 推导 。 神 经 网 络 是 深度 学 习 的 底层 


学 完 本 章 ， 和 希望 读者 能 够 掌握 以 下 知识 点 : 


(1) 神经 网 络 的 结构 和 前 向 传播 。 
(2) BP 算法 ( 即 后 向 传播 ) 。 
(3) 使 用 Numpy 实 现 浅 层 神 经 网 络 。 


(4) 使 用 PaddlePaddle 框 架 实 现 浅 层 神经 网 络 。 


4.1 神经 网 络 
神经 网 络 的 定义 及 其 结构 


言 处 理 等 ) 、 军 事 、 医 疗 、 智 能 制造 等 领域 都 有 重要 应 


4.1.1 
我 们 知道 人 脑 中 存在 大 量 神经 元 ， 它 们 并 非 孤 立 存 在， 每 个 神经 元 都 与 其 他 大 量 的 神经 元 相连 ， 神 经 元 接受 外 界 刺激 后 产生 反应 ， 将 信息 传递 给 与 之 连接 的 神经 元 人工 神经 网 络 简称 神经 网 络 


1 定义 


这 种 模型 依靠 模仿 神经 元 之 间 大 量 的 连接 结构 来 处 理 数据 。 神 经 网 络 目 前 在 多 媒体 (语音 识别 、 图 像 识 别 和 自然 语 
， 计 算 三 大 症状 的 严重 程 


种 模仿 动物 神经 结构 的 数学 模型 ， 
用 ; 
我 们 以 儿童 自 闭 症 的 诊断 为 例 来 理解 神经 网 络 结构 ， 根 据 以 往 的 诊断 经 验 总 结 出 儿童 自 闭 症 的 三 大 典型 症状 一 一 社交 障碍 、 语 言 障碍 、 刻 板 行为 ， 通 过 收集 儿童 的 相关 信息 
儿童 信息 输入 一 一 症状 诊断 一 一 自 闭 症 诊断 ， 其 中 “症状 诊断 ”不 必 对 患者 展示 ， 这 是 医疗 人 员 自 行 处 理 的 步骤 ， 患 者 仪 仪 想 知道 最 后 的 结果 。 


度 ， 从 而 对 儿童 自 闭 症 进行 诊断 ; 即 整 个 过 程 分 为 三 步 : 
我 们 用 示意 图 描述 刚才 的 诊断 过 程 (当然 ， 实 际 诊断 会 比 示 意图 复杂 ) ， 如 图 4-1 所 示 就 是 一 个 简单 的 神经 网 络 结构 ， 包 括 : 输入 ， 中 间 处 理 ， 输 出 。 


儿 重 生理 状况 
儿童 日 闭 症 


儿童 日 党 行为 


图 4-1 ”儿童 自 闭 症 诊断 
全 取决 于 相应 的 问题 。 


每 个 步骤 都 是 上 个 步骤 的 “进一步 归纳 ”， 具 体 “ 递 进 ” 多 少 层 完 


个 “ 层 层 递 进 ”的 结构 ， 获 取 输 入 信息 后 ， 中 间 可 以 有 无 数 个 处 理 步骤 


2. 结 构 
一 个 完整 的 神经 网 络 结构 有 输入 层 、 隐 藏 层 和 输出 层 ， 我 们 将 上 面 的 图 进行 分 割 ， 如 图 4-2 所 示 。 


儿 重 生理 状况 


浏 儿童 自 闭 证 


前 入 屋 强 疙 层 


图 4-2 ”神经 网 络 结构 


各 层 功能 如 下 : 

. 输入 层 : 样本 信息 输入 ; 

* 隐藏 层 : 所 有 在 输出 层 之 后 并 且 在 输出 层 之 前 的 层 都 是 隐藏 层 ， 隐 藏 层 用 于 处 理 中 间 步 又 ， 这 些 步 骤 通 常 不 对 用 户 展示 ， 因 此 称 为 隐藏 层 ; 
` 输出 层 : 输出 神经 网 络 的 计算 结果 。 


在 计算 神经 网 络 的 层 数 时 ， 输 入 层 不 计 入 在 内 ， 因 此 图 4-2 所 示 的 是 一 个 双 层 神经 网 络 ， 该 网 络 中 隐藏 层 是 第 一 层 ， 输 出 层 是 第 二 层 。 比 两 层 网 络 更 加 简单 的 是 一 层 网 络 〈 仅 包含 输出 层 ) ， 第 3 章 中 的 
Logistic 回 归 就 是 单 层 的 神经 网 络 。 神 经 网 络 可 以 包含 多 个 隐藏 层 ， 在 第 5 章 中 读者 将 看 到 深层 的 网 络 。 本 章 仅 讨论 包含 单个 隐藏 层 的 双 层 神经 网 络 结构 。 

将 图 4-1 抽 象 成 神经 网 络 结构 ， 如 图 4-3 所 示 ， 可 以 看 到 输入 层 包含 2 个 输入 值 (x1，x2) ， 输 出 层 包含 1 个 输出 值 (y) ， 隐 藏 层 包含 3 个 节点 (a1，a2，a3) 。 该 图 中 节点 的 意义 与 图 4-1 相 对 应 ， 如 
x1 代 表 “ 儿 童生 理 状况 。，a1 代 表 “ 社 交 障 碍 ”。 


此 处 还 要 介绍 一 个 常用 概念 一 一 全 连接 。 观 察 图 4-3， 输 入 层 的 2 个 节点 与 隐藏 层 的 3 个 节点 均 有 连接 ， 隐 藏 层 的 3 个 节点 也 都 与 输出 层 的 每 个 节点 连接 ， 像 这 样 每 一 层 的 每 一 个 节点 都 有 绪 连 向 下 一 层 的 
全 部 节点 的 神经 网 络 ， 就 称 作 全 连接 网 络 (简称 全 连接 ) 。 


图 4-3 ”抽象 神经 网 络 


4.1 神经 网 络 


4.1.1 神经 网 络 的 定义 及 其 结构 


1. 定 义 


我 们 知道 人 脑 中 存在 大 量 神经 元 ， 它 们 并 非 扳 立 存 在 ， 每 个 神经 元 都 与 其 他 大 量 的 神经 元 相连 ， 神 经 元 接受 外 界 刺激 后 产生 反应 ， 将 信息 传递 给 与 之 连接 的 神经 元 ; 人 工 神经 网 络 简称 神经 网 络 ， 是 一 
种 模仿 动物 神经 结构 的 数学 模型 ， 这 种 模型 依靠 模仿 神经 元 之 间 大 量 的 连接 结构 来 处 理 数据 。 神 经 网 络 目前 在 多 媒体 〈 语 音 识 别 、 图 像 识 别 和 自然 语言 处 理 等 ) 、 军 事 、 医 疗 、 智 能 制造 等 领域 都 有 重要 应 
用 。 


我 们 以 儿童 自 闭 症 的 诊断 为 例 来 理解 神经 网 络 结构 ， 根 据 以 往 的 诊断 经 验 总 结 出 儿童 自 闭 症 的 三 大 典型 症状 一 一 社交 障碍 、 语 言 障碍 、 刻 板 行为 ， 通 过 收集 儿童 的 相关 信息 ， 计 算 三 大 症状 的 严重 程 
度 ， 从 而 对 儿童 自 闭 症 进行 诊断 ， 即 整个 过 程 分 为 三 步 : 儿童 信息 输入 一 一 症状 诊断 一 一 自 闭 症 诊断 ， 其 中 “症状 诊断 ”不 必 对 患者 展示 ， 这 是 医疗 人 员 自 行 处 理 的 步骤 ， 患 者 仅仅 想 知 道 最 后 的 结果 。 


我 们 用 示意 图 描述 刚才 的 诊断 过 程 (当然 ， 实 际 诊断 会 比 示 意图 复杂 ) ， 如 图 4-1 所 示 就 是 一 个 简单 的 神经 网 络 结构 ， 包 括 : 输入 ， 中 间 处 理 ， 输 出 。 


儿 重 生理 状况 


儿童 日 闭 症 


“刻板 
行为 


儿童 自 闭 症 诊断 


全 取决 于 相应 的 问题 。 


图 4-1 
”， 上 有 具体“ 递 进 ” 多 少 层 完 


一 个 “ 层 层 递 进 ' 的 结构 ， 获 取 输 入 信息 后 ， 中 间 可 以 有 无 数 个 处 理 步 又， 每 


络 是 


由 图 4-1 可 见 神经 网 


一 个 完整 的 神经 网 络 结构 有 输入 层 、 隐 藏 层 和 输出 层 ， 我 们 将 上 面 的 图 进行 分 割 ， 如 图 4-2 所 示 。 


儿 重 生理 状况 


浏 儿童 自 闭 证 


前 入 屋 强 疙 层 


图 4-2 ”神经 网 络 结构 


各 层 功能 如 下 : 

. 输入 层 : 样本 信息 输入 ; 

* 隐藏 层 : 所 有 在 输出 层 之 后 并 且 在 输出 层 之 前 的 层 都 是 隐藏 层 ， 隐 藏 层 用 于 处 理 中 间 步 又 ， 这 些 步 骤 通 常 不 对 用 户 展示 ， 因 此 称 为 隐藏 层 ; 
` 输出 层 : 输出 神经 网 络 的 计算 结果 。 


在 计算 神经 网 络 的 层 数 时 ， 输 入 层 不 计 入 在 内 ， 因 此 图 4-2 所 示 的 是 一 个 双 层 神经 网 络 ， 该 网 络 中 隐藏 层 是 第 一 层 ， 输 出 层 是 第 二 层 。 比 两 层 网 络 更 加 简单 的 是 一 层 网 络 〈 仅 包含 输出 层 ) ， 第 3 章 中 的 
Logistic 回 归 就 是 单 层 的 神经 网 络 。 神 经 网 络 可 以 包含 多 个 隐藏 层 ， 在 第 5 章 中 读者 将 看 到 深层 的 网 络 。 本 章 仅 讨论 包含 单个 隐藏 层 的 双 层 神经 网 络 结构 。 

将 图 4-1 抽 象 成 神经 网 络 结构 ， 如 图 4-3 所 示 ， 可 以 看 到 输入 层 包含 2 个 输入 值 (x1，x2) ， 输 出 层 包含 1 个 输出 值 (y) ， 隐 藏 层 包含 3 个 节点 (a1，a2，a3) 。 该 图 中 节点 的 意义 与 图 4-1 相 对 应 ， 如 
x1 代 表 “ 儿 童生 理 状况 。，a1 代 表 “ 社 交 障 碍 ”。 


此 处 还 要 介绍 一 个 常用 概念 一 一 全 连接 。 观 察 图 4-3， 输 入 层 的 2 个 节点 与 隐藏 层 的 3 个 节点 均 有 连接 ， 隐 藏 层 的 3 个 节点 也 都 与 输出 层 的 每 个 节点 连接 ， 像 这 样 每 一 层 的 每 一 个 节点 都 有 绪 连 向 下 一 层 的 
全 部 节点 的 神经 网 络 ， 就 称 作 全 连接 网 络 (简称 全 连接 ) 。 


图 4-3 ”抽象 神经 网 络 


4.1.2 ”神经 网 络 的 计算 


神经 网 络 的 计算 过 程 分 为 3 步 : 前 向 传播 、 后 向 传播 和 梯度 下 降 。 本 节 将 结合 儿童 自 闭 症 诊断 的 示例 描述 双 层 神经 网 络 的 计算 。 
1. 正 向 传播 的 计算 过 程 
回顾 第 3 章 Logistic 回 归 中 正 向 传播 的 过 程 : 节点 在 获得 输入 数据 后 需要 经 过 有 次 序 的 两 步 计算 (线性 变换 和 激活 ) 。 与 Logistic 回 归 的 计算 一 样 ， 神 经 网 络 的 每 一 个 节点 计算 都 需要 经 过 类 似 的 过 程 。 


第 一 步 是 线性 变换 。 以 社交 障碍 节点 a1 为 例 ， 它 的 两 个 输入 值 是 儿童 生理 状况 和 儿童 日 常 行为 ， 其 线性 变换 的 过 程 是 : 
1 Ss Es i 光 | 二 : sa ET 一 =- = ， EE a pls He 司 
z1 1 二 (权重 系数 1X 儿童 生理 状况 + 偏 移 量 1)+( 权 重 系 数 *X 儿童 日 常 行 关 


其 中 ， 上 角 标 方 括号 用 于 区 分 不 同 的 层 ， 在 本 章 计算 中 [1] 代 表 第 一 层 ， 即 隐藏 层 ，[2] 代 表 第 二 层 ， 即 输出 层 ; z1[] 表 示 第 一 层 的 第 一 个 中 间 结 果 。 权 重 系数 和 偏 置 量 分 别 用 字母 w 和 b 表 示 ，w 用 于 表示 
影响 程度 ，b 用 于 结果 的 修正 。 将 其 带 入 可 得 : 


] ] ] ] 
zl |= (wi . Xi 十 及 十 (Wo 本 Xt+b)=wi 本 X1+ wh 本 Xs+ Dr! (4-1 ) 


< 
十- 
a 
[i 


其 中 ，w 所 表示 第 一 层 第 一 个 节点 的 权重 向 量 的 第 ;个 分 量 ，%5 表示 第 一 层 的 第 一 
个 节点 的 偏 移 量 。 上 式 可 以 进一步 简化 ， 令 w=(wh, wpP7，x= Co xz 7， 注意 到 wn 
和 x 都 是 维度 为 2x1 的 向 量 ， 因 此 可 以 使 用 向 量 相 乘 的 形式 来 简写 ， 注 意向 量 相 乘 时 的 
转 置 : 
zl =Wi X+bi ( 4-2 ) 


[1] 
至 此 完成 了 线性 变换 的 过 程 ， 计 算 41 还 需 一 步 激 活 。 本 例 中 ， 隐 藏 层 的 激活 函数 使 用 的 是 tanH () 函数 ( 见 本 小 节 第 三 部 分 ) ， 记 作 t () ， 于 是 有 


其 中 ，41 表示 第 一 层 中 第 一 个 节点 激活 后 的 值 ， 计 算 完毕 后 会 被 当 作 下 一 步 的 输入 沿 着 网 络 传递 下 去 。 

隐藏 层 中 其 他 节点 的 计算 过 程 同 a 中 ,但 是 它们 具体 的 值 各 不 相同 。 对 于 隐藏 层 节 
点 (三 大 典型 症状 )， 每 个 节点 受 xi 和 x 的 影响 程度 不 同 ， 因 此 权 值 w 和 偏 移 量 b 也 不 
同 ， 隐 藏 层 的 每 个 节点 都 有 自己 的 wi 和 如 H。 为 了 更 加 方便 地 表示 这 些 数据 ， 可 以 
把 这 些 数据 组 织 为 向 量 或 矩阵 形式 ，WWVI= (w 门 , w 由 , w 下 ?表示 权重 组 成 的 矩阵 (其 维度 
是 3 行 2 列 )，p 中 =(b 站 , p41 p47 表示 偏 置 的 向 量 (维度 是 3 行 1 列 )， z=(z, z 内 ,28 
表示 中 间 值 的 向 量 (维度 是 3 行 1 列 )，al =(al, a, as) 表示 本 节点 计算 后 的 值 (维度 
是 3 行 1 列 )。z 为 中 间 值 ， 是 线性 组 合 的 结果 z= x+bol,am 是 中 间 值 激活 后 的 结 
zt 和 4 的 计算 过 程 如 公式 4-3 和 公式 4-4 所 示 。 


z | lwl .x+tb| lw .x 
z0 =| z0 |=| wi .x+B |=| wi .x |+b =Wix+b ( 4-3) 
w; 十 及 WwW; -xX 
[1] 
a [ie fa 
[1] _ [1] | 一 [本 | [1] | 一 [1] : 
4 三 | 0 |= t( 2 ) =t| 2z, =t(z ) (4-4 ) 
[1] [1] 
Us t(z!) 23 


上 面 描述 的 是 隐藏 层 正 向 传播 的 具体 细节 ， 下 面 来 描述 输出 层 正 向 传播 的 相关 细节 。 对 于 输出 层 的 计算 ， 儿 童 自 闭 症 的 诊断 受到 三 个 典型 症状 的 影响 ,程度 各 有 不 同 ， 因 此 同样 有 “线性 变换 ”和 “ 激 
活 ” 两 步 。 线 性 变换 也 可 以 理解 为 加 权 、 修 正 ， 如 下 所 示 : 


“二 (系数 | Xx 社交 障碍 十 估 移 量 |) 
+( 系 数 ,Xx 语言 障 码 + 偏 移 量 ，) 


+( 系 数 3X 刻板 行为 + 偏 移 量 3 ) 
Ph rr ei “a3 +b") 


pp ] ] 2 I | 


由 于 输 出 层 只 1 有 一 个 节 点 ， 因 a (wi 1), bel= (bp)’, z= (zt))T, P= 01), 
将 上 式 中 的 权重 改写 为 向 量 形式 ， 令 w 广 = wn, wiy, wi3)"， 将 上 式 向 量化 可 得 


= 


|| 


(| + 9) 


a 


加 HT + pu” 


~ Whal pu 


在 完成 了 “线性 变换 ”和 向 量化 后 ， 就 可 以 开始 激活 步骤 。 激 活 过 程 就 是 带 入 公式 : 患 病 概率 =o (中 间 值 ) ， 本 例 中 ， 输 出 层 的 激活 函数 使 用 的 是 Sigmoid 函 数 ， 记 作 o () 。 具 体 数学 表示 如 公式 4-7 
所 示 ， 其 中 ， 少 表示 最 终 的 计算 结果 ， 


p=(P1) =0(z ) (4-7 ) 


完成 了 输出 层 的 激活 之 后 ， 就 算 完成 了 一 个 神经 网 络 的 计算 ， 在 此 做 个 小 结 。 对 于 一 个 双 层 的 神经 网 络 结构 ， 它 的 计算 过 程 如 下 : 


加 权 ， 激活 加 权 ， 激活 


a =1(z) 本 = c(zD) 


特别 需要 注意 的 是 维度 问题 ， 这 是 非常 容易 出 错 的 地 方 。WI 是 3x 2 的 和 矩阵，x 是 2x1 的 列 向 量 ，b[I 是 3x1 的 列 向 量 ， 因 此 z[0 和 a[1] 均 为 3x1 的 列 向 量 ; 而 WI 为 1x3 的 行 向 量 ， 由 于 第 二 层 〈 即 输出 
[2] 14 
层 ) 只 包含 一 个 节点 ， 因 此 bD] 只 包含 1 ， 看 作 维 度 是 1x1 的 列 向 量 ， 同 理 z 书 和 了 看 作 长 度 为 1 的 列 向 量 。 


2 神经 网 络 的 向 量化 计算 
上 一 节 描述 的 是 单个 样本 在 神经 网 络 中 的 计算 过 程 。 对 于 某 个 特定 的 患者 ， 只 要 获得 了 患者 信息 (儿童 生理 状况 和 儿童 日 党 行为) 和 参数 (w，b) ， 神 经 网 络 就 可 以 计算 出 其 患 病 的 可 能 性 (有力 )， 


上 一 节 只 考虑 了 针对 一 个 患者 的 处 理 步骤 ， 但 是 在 医生 的 实际 工作 中 往往 会 有 成 百 上 干 个 患者 需要 被 诊断 。 如 果 我 们 采用 遍历 的 方法 一 个 一 个 去 诊断 ， 那 么 系统 的 整体 计算 效率 就 会 很 低 。 向 量化 方法 
可 以 有 效 改 进 计算 过 程 。 具 体 而 言 ， 就 是 将 所 有 的 患者 信息 组 成 一 个 矩阵 ， 直 接 对 该 矩阵 进行 处 理 ， 最 后 将 每 个 患者 输出 的 y 也 组 织 为 向 量 形式 一 并 输出 。 


全 体 患 者 信息 被 组 织 为 一 个 矩阵 ， 本 书 使 用 右上 角 圆 括号 的 形式 来 区 分 每 一 个 患者 信息 。 假 设 全 体 患 者 信息 为 X= (x (1)，http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/17642/OEBPS/Text/...，x(") ) ， 其 中 ，n 表 示 患 者 的 数量 。x (i) 表示 第 | 位 患者 的 具体 信息 X= (Cl ， 例如 x (5) 表示 第 5 位 患者 的 信 


息 。 这 里 要 说 明 一 下 ， 全 体 患者 信息 x 可 以 直接 视 为 一 个 矩阵 ， 和 矩阵 的 规模 为 2 行 n 列 ， 每 一 列表 示 一 位 患者 的 信息 。 

除了 患者 的 信息 ， 参 数 (w，b) 也 可 以 视 作 算法 的 输入 。 患 者 信息 作为 算法 的 输入 十 分 容易 理解 ， 但 是 直观 感受 上 参数 (w，b) 应 该 是 算法 的 一 部 分 ， 可 是 为 什么 也 被 看 作 输 入 了 呢 ” 事 实 上 在 算法 
开始 运行 前 ， 开 发 者 并 不 知道 参数 (w，b) 具体 是 什么 值 ， 开 发 者 只 需要 将 其 初始 化 为 逼近 0 的 数字 就 可 以 了 (注意 不 要 全 部 初始 化 为 0) 。 算 法 运行 迭代 过 程 中 会 不 断 地 修改 参数 (w，b) ， 直 到 达到 最 
优 。 

此 外 ， 权 值 w 和 偏 移 量 b 与 具体 某 个 样本 是 无 关 的 ， 也 不 会 随 着 样本 的 变化 而 变化 。 结 合 实例 解释 ， 隐 藏 层 的 第 一 个 节点 “社交 障碍 ”是 一 个 抽象 出 来 的 症状 ， 受 “儿童 生理 状况 ”和 “儿童 日 常 行 


为 ”影响 。 受 影响 的 程度 是 一 个 “通用 值 ”， 对 于 所 有 儿童 都 适用 。 换 言 之 ， 第 一 位 患者 的 三 个 典型 症状 受 “ 儿 童生 理 状 况 ” 和 “儿童 日 常 行为 ”的 影响 与 第 二 位 患者 的 受 其 影响 的 程度 是 一 样 的 。 权 值 w 
和 偏 移 量 b 不 会 随 样本 改变 ， 也 就 不 会 有 圆 括号 的 右上 角 标 。 


同时 诊断 全 体 患 者 的 过 程 就 是 向 量化 处 理 的 过 程 。 首 先 计算 隐藏 层 ， 为 了 多 视角 呈现 算法 运算 过 程 ， 这 次 从 结果 出 发 。 令 Z[]= (zt?] () ，http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/17642/OEBPS/Text/..., zl on) ) ，AIJ= (all] (1) , http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/17642/OEBPS/Text/...，al1] (nm) ) ， 其 中 zl1] 由 表示 第 | 个 患者 的 第 一 层 的 中 间 值 ，al1]() 表示 第 | 个 患者 的 第 一 层 激活 后 的 输出 值 。 考 量 
ZI 一 AI 的 过 程 : 


A!i!= (a ,., a 1)) 
i (t(Z 下 ， ,.., t(z 1")) 


t(z1110), ,, Zz 1)) 


=-t(z0 


那么 如 何 计算 Z[1 呢 ? Z[1 是 经 由 输入 值 X 加 权 和 偏 移 得 到 的 结果 ， 用 公式 表达 


了 = 权 值 向 量 X 患 者 信息 矩阵 + 偏 移 量 


其 中 ，2Z 表示 第 一 层 的 中 间 值 向 量 。 如 前 文 所 述 患 者 信息 向 量 为 乱 = (x ..., x"”)， 
其 中 x9=(x1, x ) "(处 矩 阵 的 规模 是 2 行 n 列 )。 权 值 矩 阵 =(Oor x; 3 的 规模 
为 3x2， 偏 移 向 量 为 p 中 =(b1", b; , b3 )"'( 注 : b 中 的 规模 虽然 为 3x 1， 但 是 在 计算 过 程 
中 WX 结果 的 每 一 列 都 需要 加 上 bp"1)， 带 和 人 相关 字母 : 


F711] 一 (z 1) ..., zl 
=(W. | X +hb ， “9 WW x "+b ) 
(W- We Jr x )+pb 


WI (x, x) + oT 


— WiHilx+ptl 


所 以 可 以 得 到 结论 : ZID=WIX+bI。 注 意 ，Z0] 的 规模 是 3 行 n 列 。 


以 上 完成 了 隐藏 层 的 计算 ， 下 面 是 计算 输出 层 的 计算 。 输 出 层 的 计算 和 隐藏 层 的 算法 其 实 没 有 差别 ， 读 者 要 注意 的 是 矩阵 、 向 量 的 规模 和 激活 函数 的 选择 。Z 回 = (z 站 
(0 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17642/OEBPS/Text/..., zl2] (n) ) 表示 第 二 层 的 中 间 值 ， Y= (9, .9 了 ") 表 示 输 出 的 


结果 值 。】 的 计算 和 AI] 的 计算 过 程 类 似 ， 区 别 在 于 激活 函数 不 同 : 


一 人 NS(] ) 


pp ) 


| " 


= (oa(zPIO) ,.,, oe")) 


elo) 


<|(1) 


一 0(Z "), ..., 2 


-ao(ZP| 


对 于 Z 所 的 计算 。Z 丫 由 隐藏 层 的 输出 向 量 经 过 加 权 和 偏 移 得 到 的 ， 公 式 如 下 : 


Z 四 = 权 值 向 量 X 隐 藏 层 输出 向 量 + 偏 移 量 


权 值 向 量 表示 第 二 层 唯一 的 一 个 神经 元 的 权 值 组 成 的 向 量 ， 隐 藏 层 输出 向 量 就 是 上 一 层 的 输出 值 AI] (其 规模 为 3 行 n 列 ) 。 第 二 层 的 权 值 向 量 用 WI 外 表示 (其 规模 为 1 行 3 列 ) ， 第 二 层 的 偏 置 值 用 b 所 表 
示 。 其 计算 过 程 如 下 : 


更 


ML 一 (Z ..., A 


= (JP .uaO+5P WY .ad + pn) 


(WH aD) Wl. a Vd") + pe 
WH (a ..., a )+b" 


所 以 可 以 得 到 结论 : Z@=WEBIAI+ bD，ZD 的 规模 是 1 行 n 列 . 
到 此 完成 了 多 个 输入 样本 的 神经 网 络 的 向 量化 计算 。 使 用 向 量化 计算 可 以 大 大 加 速 计算 ， 总 结 其 过 程 如 下 : 
加 权 加 权 激 活 


输入 一 一 一 六 隐藏 层 一 一 一 一 一 六 输出 层 一 一 > 输出 值 
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3. 激 活 函 数 


在 前 面 的 学 习 中 ， 提 到 了 “激活 函数 ”的 概念 。 激 活 函 数 对 输入 作 非 线性 映射 ， 在 神经 网 络 中 起 到 了 很 重要 的 作用 。 本 小 节 将 介绍 一 种 激活 函数 一 tanH 激 活 函数 。 


tanH 激 活 函数 范围 在 -1 到 1 之 间 ， 随 着 x 的 增 大 或 减 小 ， 函 数 趋 于 平缓 ， 导 国 数 趋 近 于 0。tanH 激 活 函 数 基本 信息 如 表 4-1 所 示 。 


表 4-1 tanH 激 活 函 数 


政和 TT 


sinh(x) 


cosh(x) 


tanH 聘 数 TEST OO 


Er _e 一 尼 


E 十 e“ 


对 比 第 3 章 中 的 Sigmoid 激 活 函 数 ， 可 以 发 现 tanH 激 活 函数 可 以 由 sigmoid 函 数 移动 穿 过 零点 后 ， 重 新 标 度 获得 ，tanH 函 数值 学 围 在 -1 到 1 之 间 ， 平 均值 更 接近 0， 有 类 似 数据 中 心 化 的 效果 ， 工 业界 也 
流行 使 用 tanH 激 活 函 数 ; 如果 希望 输出 在 0 到 1 之 间 ， 可 以 使 用 3igmoid 国 数 ， 具 体 视 情 况 而 定 。 


激活 函数 与 “加 权 、 修 正 ” 不 同 ， 激 活 函 数 必 须 是 一 个 非 线 性 映射 。 下 面 证 明 非 线性 映射 的 必要 性 。 


假设 激活 函数 L () 将 输入 作 了 线性 映射 ， 不 妨 假设 L (xX) =kx+1， 那 么 对 于 样本 X 有 : 


z |= Wilx+pb! 

ald=L(z))=kWix+ kb +1= Whx+ pb 

ilgl 4 pt 

P=L)=kWea + kb + = WE Wx Wp + kb +1 
=Wx+b 


此 时 少 是 x 的 线性 表示 ， 无 论 加 上 多 少 层 隐 层 都 一 样 ， 这 使 得 隐 层 失去 意义 。 因 此 激活 函数 必须 使 得 输入 作 非 线性 映射 。 
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4.2 ”BP 算 汉 


反 向 传播 算法 又 称 BP 算 法 (Back Propagation) ， 主 要 用 于 优化 参数 (w，b) 。 第 3 章 介 绍 了 损失 函数 ，BP 算 法 就 是 利用 损失 函数 进行 反 向 求 导 优化 ， 求 出 损失 函数 最 小 时 的 参数 (w，b) 的 值 。 本 
节 主 要 讲解 求 导 过 程 ， 仍 旧 使 用 图 4-3 所 示 的 神经 网 络 。 过 程 与 逻辑 回归 的 反 向 计算 类 似 ， 区 别 在 于 BP 算 法 对 于 有 隐藏 层 的 神经 网 络 能 降低 计算 复杂 度 ， 其 思想 与 动态 规划 类 似 。 


4.2.1 逻辑 回归 与 BP 算法 


回顾 第 二 章 的 逻辑 回归 的 前 向 传播 和 后 向 传播 的 计算 过 程 。 首 先 ， 逻 辑 回 归 的 正 向 计算 过 程 如 下 式 所 示 : 
x— >z=w x+b— i =o(z)—— 1L(} ) 
—W J Ou ,yy 


其 中 ，x 代 表 输入 ， 少 代表 模型 输出 ，y 代 表 实 际 值 。L (了 》， 少 ) 表 示 损 失 函数 ， 这 个 过 程 中 的 激活 函数 为 Sigmoid 函 数 ， 然 后 ， 回 顾 泌 辑 回归 的 反 向 计算 过 程 如 下 所 示 : 


从 右 向 左 观察 上 式 ， 从 最 右 侧 的 损失 函数 开始 ， 先 由 其 对 预测 值 了 求 偏 导 数 ， 然 后 逐步 求 出 dw 和 db。 注 意 到 (w，b) 出 现在 z 的 计算 式 中 ， 而 z 出 现在 了 的 计算 式 中 (这 里 就 用 到 了 链 式 法 则 ) 。 逻 辑 
回归 的 逆向 传播 过 程 实质 上 就 是 最 简单 的 BP 算法 应 用 。 


4.2.2 单 样本 双 层 神经 网 络 的 BP 算法 
本 小 节 讨论 只 输入 一 组 样本 的 情况 下 BP 算法 的 计算 过 程 。 为 了 研究 送 向 传播 ， 需 先 清楚 正 向 传播 的 过 程 ， 因 为 送 向 传播 建立 在 正 向 传播 基础 上。 图 4-4 星 现 的 是 图 4-3 中 神经 网 络 的 正 向 计算 过 程 ， 这 里 
只 关注 一 组 样本 时 正 向 传播 的 计算 流程 。 算 法 的 输入 是 x， 输 出 是 损失 函数 ， 其 中 表示 模型 的 计算 值 ( 即 预测 值 ， 少 表示 数据 集中 的 标注 值 ( 即 真实 值 ) 。 


正 向 传播 算法 只 有 在 确定 参数 (w，b) 的 情况 下 才能 算出 损失 函数 。 换 言 之 ， 正 向 传播 能 够 运行 的 前 提 假 设 就 是 参数 (w，b) 是 已 知 的 。 然 而 实际 情况 中 是 无 法 事先 知道 参数 的 ， 事 实 上 ， 深 度 学 习 
反复 求索 的 就 是 最 优 的 参数 (w，b) 。 一 旦 找到 了 最 优 的 参数 ， 那 么 深度 学 习 也 就 停止 了 。 换 言 之 ， 参 数 (w，b) 确定 了 ， 模 型 也 就 确定 了 ， “学习 ”过 程 也 就 结束 了 。 


1 yl [1 
wl z=W''ix+b 


a =7 (a ?=c(z] 


图 4-4 单 样本 双 层 网 络 正 向 传播 过 程 
寻求 模型 参数 依靠 的 就 是 梯度 下 降 思 想 。 首 先 ， 拟 定 初始 参数 (w，b) ， 


一 般 是 一 组 接近 0 的 数 ; 然后， 输入 样本 值 X， 通 过 正 向 计算 得 到 ， 由 了 可 得 损失 函数 L (省 ，y) 。 接 着 ， 对 参数 进行 调整 ， 
根据 上 次 的 参数 值 计算 得 到 本 次 参数 值 。 根 据 梯 度 下 降 算 法 ， 其 过 程 为 : 


其 中 ， 等 式 右 


等 式 右边 的 W 和 b 均 为 上 一 次 迭代 时 的 参数 值 ，c 为 超 参数 。 等 式 左边 为 这 次 和 迭代 准备 使 用 的 参数 值 。 最 后 ， 企 更 新 了 参数 (w，b) 后 ， 再 进行 上 述 步骤 反复 迭代 ， 得 到 最 优 的 参数 (w，b) 。 
事实 上 ，“ 最 优 ” 是 很 难 达到 的 ， 通 常 只 要 满足 了 停止 标准 就 会 停止 算法 。 停 止 的 标准 有 很 多 ， 例 如 达到 了 限制 迭代 次 数 或 者 相 邻 两 次 迭代 误差 差别 很 小 等 。 注 意 等 式 右边 的 系数 wx，c 被 称 作 学 习 率 ， 是 一 
个 标量 ， 它 是 深度 学 习 算 法 调 优 时 常用 的 手段 (第 10 章 会 仔细 讲解 ) 。 至 于 偏 导 数 的 求法 比较 复杂 ， 下 面 重 点 讲述 。 


A aL ,OL 
偏 导 数 的 求解 过 程 是 BP 算法 的 重点 也 是 难点 。 对 于 一 个 输入 样本 X， 正 向 传播 结束 时 得 到 损失 函数 为 (y, y). BP 算法 就 是 从 损失 函数 开始 求解 偏 导数 01 ”0b。 其 思路 还 是 与 逻辑 回归 一 样 ， 通 过 链 
式 法 则 求 得 。 值 得 注意 的 是 ， 在 第 2 章 逻 辑 回 归 中 使 用 的 损失 遂 数 是 对 数 似 然 损 失 函 数 ， 而 这 里 采用 平方 差 遂 数 公式 


A 


~ |2 


其 中 ， 式 子 中 乘 以 /2 仅仅 是 为 了 计算 方便 。 


逐步 求解 偏 导数 的 过 程 就 是 逐步 应 用 链 式 法 则 从 右 至 左 计算 的 过 程 。 首 先 求 损 失 扬 
2 
数 L(P, y) 对 P 的 偏 导数 ， 得 一 JJ。 接 下 来 求 损 失 函 数 工 对 z 的 偏 导数 ， 记 作 
dz 中 ， 公 式 为 de = 
Oz 


。 观 察 发 现 ，z” 是 函数 了 了 =o (z ) 的 日 变量 ,而 了 是 损失 函数 的 


L( 了 ,yy) 目 变 量 ， 于 是 使 用 偶 导 数 的 链 式 法 则 可 得 〈@ 〇 表示 逐 元 系 相 乘 ): 


2 oL 0 dy 、 A 和 
四 ns -内 = dp Oo'(z)=($-y)O(P(1-$)) 


BP 算法 最 终 的 目标 是 计算 出 偏 导 数 和 过 。 更 进一步 ， 在 z= elam+ 5 中 的 计 


[2] 
算式 中 包含 了 Fi 和 5b 中。 特别 要 注意 ， 一 5 厅 = al 。 继 续 使 用 链 式 法 则 ， 


- 必 oc(zjem _ qz 


-G-nDor(H)e onl 


[1] 


其 中 ，dJ 毅 面 已 经 计算 得 到 dj 二 了， 4 ”是 前 向 传播 中 第 一 层 运算 后 得 到 的 向 量 。 计 算出 dWDI 和 db 思 之 后 ， 后 向 传播 在 输出 层 的 计算 就 完成 了 . 


计算 完 输出 层 之 后 ， 后 向 传播 继续 ， 开 始 处 理 隐藏 层 。BP 算 法 在 隐藏 层 需要 得 到 dWI 和 db[l]， 其 中 WI] 是 矩阵 ，b[] 是 向 量 ， 如 下 所 示 : 


wb J wl pl | 


Wi1， 


WH = (wi, wd wll) = wh |=| wl, wd pl = pl | 
i 2 人 | 
wr | | wail, wi pl | 


3 Ws1， 


WII 可 以 视 作 3x1 的 向 量 ， 其 三 个 分 量 都 是 向 量 ， 其 意义 为 隐藏 层 的 三 个 节点 的 权 值 向 量 。WI] 也 可 以 视 作 规模 为 3x2 的 矩阵 ， 其 意义 为 隐藏 层 的 所 有 的 权 值 组 成 的 矩阵 。b[ 是 一 个 列 向 量 ， 其 三 个 分 
量 都 是 标量 ， 意 义 为 隐藏 层 的 三 个 节点 的 偏 置 。 


下 面 严 格 按 图 索 红 地 推导 公式 ， 最 终 求 出 dW[1 和 db[1。 由 z=Wl1jx+b[1 可 知 WI1 和 bl 是 zl1] 的 自 变量 ， 于 是 可 得 公式 : 


1 OoL OL Oz 站 _ OL OL Ge 
~ oOWU Baz] ‘amu : Hp 2 1 pu 
观察 上 式 可 知 ， 关键 点 在 于 求 出 二 0 0, az 


dW 


三 项 。 而 - 民 项 
有 而 和 2 5 这 两 项 委 


Oz [1] 
Apl! 


需要 明确 损失 函数 L( 了 ,了 0z a zl1l 是 a[1] 的 自 变量 ， 而 al1 是 了 的 自 变量 ， 其 函数 关系 如 下 : 
y= cl |] | [1] 

2] p20] 2) i 
人 wl 
、 | zt "=HW'ix+b 
$=0 (Wea + pi) 


其 中 ，a[1] 是 JJ 的 自 变量 ，z[1] 是 a[1] 的 自 变 量 。 


L 
容易 求 ， 由 于 z =W x+b ， 所 以 可 得 = = Xx、 -1。 稍 有 些 复杂 的 是 求 -< 


A 


因为 al1| 是 的 自 变 量 ， 所 以 使 用 链 式 法 则 可 得 : 


dr = d “= 
Sar od or a 
~ 6] owl Bl 8650 
=dal! Ota )x - dzl! 
= we (py)oo(s) |on(a)x" = WE ($-y)oo (a ) lon(a) 


综 上 ， 对 于 单个 样本 的 BP 算法 ， 总 结 4 个 核心 公式 如 下 : 


dW = dz .gl = ($- y)Oo' (zs)a 
db = dz -人 ?JoczD] 
d 玫 由 =dzu.xT= T=| FF hr($-y)O 


dbp" =dz" =dal Ot (z 站 一 we "($-y)oo'(a) on(a) 


这 4 个 公式 也 就 是 单 样 本 双 层 神经 网 络 BP 算法 的 输出 ， 至 此 ，BP 算 法 完成 了 全 部 计算 。 


4.2.3 ”多 个 样本 神经 网 络 BP 算 法 


上 一 节 介绍 了 对 于 单个 样本 如 何 使 用 BP 算法 。 本 节 将 介绍 同时 计算 所 有 输入 样本 ， 并 利用 BP 算法 求 最 优 参 数 。 


开始 具体 讨论 算法 之 前 先 给 出 基本 假设 条 件 和 数学 符 号 的 音义。 假设 有 nn 个 样本 ， 
同样 使 用 圆 括 号 上 角 标 区 分 不 同样 本 ,于 是 第 i 个 样本 为 x”。 所 有 的 样本 共同 组 成 向 
量 (或 者 说 矩阵 ) 和 = (x",.…, x”)。 所 有 样本 的 预测 值 和 真实 值 都 分 别 组 织 为 向 量 ， 于 是 


ogg Y = ” .… J ) 表示 真实 值 癌 量 。 使 用 的 损失 晒 数 为 


L(YY) 


， 那 么 成 本 晒 数 J = 一 


算法 的 目的 同样 是 使 总 体 损失 !L 最 小 ， 并 求 得 此 时 的 参数 (w，b) 。 优 化 原理 仍 是 梯度 下 降 : 


yy 


b 


ob 


对 应 上 一 节 的 结论 ， 先 给 出 多 个 样本 情况 下 神经 网 络 的 BP 算法 核心 公式 ， 如 表 4-2 所 示 。 


表 4-2 n 个 样本 BP 算法 公式 


一 个 样本 的 BP 算法 公式 | nn 个 样本 的 BP 算法 公式 || 一 个 样本 的 BP 算法 公式 | nn 个 样本 的 BP 算法 公式 


n n 
7 1 一 We | 
D] = dzD] dp = 二 ydZDI [1] ~ qz db = 二 ydz0g) 
dpP] = dz 2 dp0 = dz > 


下 面 来 证 明 上 述 结论 ， 计 算 涉 及 大 量 矩 阵 和 向 量 ， 思 路 稍 有 不 同 。 先 将 不 同 变量 用 矩阵、 向 量 的 形式 表示 出 来 ， 再 带 入 上 一 节 得 到 的 结果 进行 计算 证 明 。 


首先 计算 ， QL 六 可 以 直接 在 向 量 中 表示 : 


dyY =d| DY, yp" | dd 


上 一 节 中 对 于 一 个 样本 有 dj = 了 一 y， 对 于 个 样本 : djo = Jo 一 yi = 1,.… nn)， 


于 是 可 以 得 到 结论 : dU 了 二 了 一 了 


然后 计算 dZ 四 ，dZ 四 可 以 使 用 向 量 表示 : 


dZ = 


由 上 一 节 可 知 ， 对 于 某 一 个 样本 存在 公式 dz” = qd 〇 o'(z”)， 推 广 到 任意 一 个 样 


本 可 得 dzPo = Wo Oo'(z20)。 将 结论 带 入 公式， 


d Zl" _ | dz ..., dzl*(") ) 
= (a oo (e300),..,p" oo'(s0) 


- (a, ) oo (0),..,0 a0) 


-dy Oo'ZDP 1 


于 是 可 以 得 到 结论 : QZ = dYO c'(ZD) 


接着 计算 dWE。 上 一 节 已 知 对 于 某 一 个 样本 存在 dW 轴 =dz 四 aINT， 那 么 对 于 任意 样本 存在 dW 轴 =dz 回 (i) .al (i) T; 要 对 n 个 样本 计算 dW 上 四， 将 每 个 样本 计算 所 得 的 dW[2] 相 加 取 平 均值 即 可 ， 
则 有 : 


总 2] _ 工 2] 4[]T 
于 是 可 以 得 到 结论 : ”7 吃 1 


之 后 计算 db 所 。 上 一 节 已 知 对 于 某 一 个 样本 存在 db 四 = dz 和 四， 那么 对 于 任意 样本 存在 db 四 =dz[] 人 ， 同 理 求 和 再 求 平均 数 可 得 : 


jpD] _ 4 


为 了 最 终 求 出 dWID 和 db[1]， 先 求 出 dA[0 和 dzZ[1]: 


du = (da dam] 
(PPhrdzn0,，., 刺 PhrdzPlm -aano or(zm) an or(zno) 
=Wh (get) . dz) = (da dal™) © (a (a0 ) (a) 
_ 刺 PrdzD =dA or'(20) 


同 理 ， 由 上 一 节 推 知 dWI= dz[2] () xl1T， 将 其 求 和 再 求 平均 数 即 可 : 


dW = DX 0 YT 


一 ee dz )(x",. x 
一 | zyr 
n 


同 理 ， 可 推 知 db[1]=dz[l1] () ， 同 理 求 和 再 求 平均 数 : 


dpu 


综 上 ， 对 于 多 个 样本 的 神经 网 络 BP 算法 ， 同 样 总 结 出 4 个 核心 公式 : 


gw = -dzZ0 Mr _ | - 7) ee | Zz A 


db = 二 》 da 


i=l 


dW!u _ -dzZ0 XT =| WEY ( }) 7) 加 cl ZL ) Of ( zt) WeT 


( 4-8 ) 


1 | 
dp = 二 dz 
1 全 


4.3 ”BP 算法 实践 


实践 部 分 将 搭建 神经 网 络 ， 包 含 一 个 隐藏 层 。 


这 里 将 使 用 两 层 神 经 网 络 实现 对 螺旋 图 案 的 分 类 ， 如 图 4-5 所 示 ， 图 中 的 点 包含 红 点 和 蓝 点 还 有 点 的 坐标 信息 X， 实 验 将 通过 以 下 步骤 完成 对 两 种 点 的 分 类 ， 代 码 将 分 别 使 用 Python 库 和 PaddlePaddle 
实现 。 


0.73 


—100 -一 由/ -030 =0.25 0.00 0.23 Q.30 0.73 1.00 
图 4-5 ”螺旋 图 案 
1) 输入 样本 X,Y; 
2) 措 建 神经 网 络 ; 
3) 初始 化 参数 ; 
4) 训练 ,包括 前 向 传播 与 后 向 传播 ( 即 BP 算法 ) ; 
5) 得 出 训练 后 的 参数 


6) 根据 训练 所 得 参数 ， 绘 制 两 类 点 边界 曲线 。 


4.3.1 Python 版 本 


本 节 将 使 用 Python 原生 库 实 现 两 层 神经 网 络 的 搭建 ， 完 成 分 类 。 
1. 库 文件 
载 入 相关 库 文件 ， 与 第 3 章 大 体 一 致 ，utils.py 是 读 取 数 据 的 文件 ， 如 代码 清单 4-1 所 示 : 


代码 清单 4-1 引用 库 文件 


import matplotlib.pyplot as pilt 
import numpy as np 
import utils 


2. 载 入 数据 并 观察 维度 
载 入 数据 后 ， 输 出 维度 ， 如 代码 清单 4-2 所 示 : 
代码 清单 4-2 ”数据 维度 


# 载 入 数据 

train X train Y, test XxX, test Y = utils.load data sets() 
# 输出 维度 

shape X = train X.shape 

shape Y = train Y.shape 

print ('The shape of X is: ' + str(shape X) ) 

print ('The shape of Y is: ' + str(shape Y)) 


显示 结果 如 下 : 


The shape of X is: (2, 320) 
The shape of Y is: (1, 320) 


由 输出 可 知 每 组 输入 坐标 X 包 含 两 个 值 ，y 包 含 一 个 值 ， 共 320 组 数据 (测试 集 在 训 | 练 集 基 础 上 增加 80 组 数据 ， 共 400 组 ) 。 


3. 神 经 网 络 模型 
下 面 开 始 搭建 神经 网 络 模型 ， 我 们 采用 两 层 神经 网 络 实验 ， 隐 藏 层 包含 4 个 节点 ， 使 用 tanH 激 活 函 数 ; 输出 层 包 含 一 个 节点 ， 使 用 Sigmoid 激 活 函 数 ， 结 果 小 于 0.5 即 认为 是 0， 否 则 认为 是 1; 如 图 4-6 
所 示 。 


总 藏 层 


/uA 


图 4-6 神经 网 络 模型 


(1) 初始 化 模型 参数 


获取 相关 维度 信息 后 ， 开 始 初 始 化 参数 ， 参 数 的 初始 化 需要 网 络 结构 信息 ， 因 此 在 函数 内 部 先 定义 网 络 结构 ， 如 代码 清单 4-3 所 示 : 


代码 清单 4-3 ”初始 化 参数 


# 定义 函数 :初始 化 参数 


def initialize parameters(n x, Nn h, ny): 
初始 化 参数 
Args: 
vn x: 输入 层 所 包含 的 节点 数 
n_h: 隐 藏 层 所 包含 的 节 点 数 
n_y: 输 出 层 所 包含 的 节点 数 
Return: 
parameters: 一 个 python 字 典 ， 存 储 权 值 和 偏 移 量 


np.random.seed (2) # 设置 随机 种 子 
随机 初始 化 参数 ， 偏 移 量 初 始 化 为 0 


= np.random.randn(n h, n x) * 0.01 
= Np.random. randn (n - _y, n _h) * 0.01 
bl = np.zeros((n h, 1)) 
b2 = np.zeros ( (ny, 1)) 
parameters = {"W1l":Wi1, 
Woden 
"W2":W2, 
"2's 52} 


return parameters 


(2) 前 向 传播 与 后 向 传播 


获取 输入 数据 ， 参 数 初 始 化 完成 后 ， 可 以 开始 前 向 传播 的 计算 ， 如 代码 清单 4-4 所 示 : 


代码 清单 4-4 ”前 向 传播 


def forward propagate (X, parameters): 
前 向 传播 
Args: 
x: 输入 值 
parameters: 一 个 Python 字典 ， 包 含 权 值 和 偏 移 量 
Return: 
A2: 模型 输出 值 
cache: 一 个 python 字 典 ， 包 含 隐藏 层 和 输出 层 的 中 
= parameters{["W1"] 
bl = parameters["b1"] 
W2 = parameters["W2"] 
B2 = parameters["b2"] 
ee 
= np.dot (Wl1.T, X) + bl 
= np.tanh (21) 
人 计算 斩 出 层 
22 = np.dot (W2.T, Al) + b2 
A2=1/ (1 + np.exp(-22)) 
Cache = {"21":21， 
"Al":Al, 
"22" 572 
"A2" :A2} 


return 22， cache 


前 向 传播 最 后 5 得 出 模型 输出 值 了 ( 即 代码 中 的 A2) 


代码 清单 4-5 ”成 本 函数 


间 值 Z1,A1, 22,A2 


， 即 可 计算 成 本 函数 cost， 如 代码 清单 4-5 所 示 : 


def calculate cost (A2, Y, parameters): 
根据 第 四 章 给 出 的 公式 计算 成 本 
Args: 
A2: 模型 输出 值 
Y: 真实 值 
Parameters: 个 python 字 典 ， 包 含 参数 W1,W2 和 pb1 ,1b2 
Return: 
Cost: 成 本 函数 
m = Y.shape[1] # 样 本 个 数 
# 计 算 成 本 
logprobs = np.multiply (np.10g(A2), Y) + np.multiply(np.l1og(1 - A2), 1 - Y) 
cost = -1. /mx np.sum(logprobs) 
cost = np.squeeze (cost) # 确保 维度 的 正确 性 
return cost 
计算 了 成 本 函数 ， 可 以 开始 后 向 传播 的 计算 ， 并 进行 参数 更 新 ， 如 代码 清单 4-6 所 示 : 


代码 清单 4-6 ”后 向 传播 计算 


def backward propagate (parameters, cache, X, Y): 
后 向 传播 
Args: 
parameters: 一 个 python 字 典 ， 包 含 权 值 W1,W2 和 偏 移 量 p1, b2 
cache: 一 个 python 字 典 ， 他 窑 呈 LW WRT 六 之 mA2nm 
X: 输入 值 
Y: 真实 值 
Return: 
grads: 一 个 python 字 典 ， 包 含 所 有 的 梯度 dW1, db1, dW2, db2 
m = X.shapelll] 
Wi1 = parameters["W1"] 
W2 = parameters{["W2"] 
Al = cache["AL"] 
A2 = cache["A2"] 
# 后 向 传播 ， 计 算 qaW1，db1，dW2，dqb2 
Q22 = A2 -了 
dW2 = 1. /mx np.qot(dq22，Al.T) 
db2 三 / mw* np.sum(dz2, axis=1, keepdims=True) 
dz1 = np.dot (W2.T, dZ2) * (1 - np.power (Al, 2)) 
dWl1 = /mx np.dot(dz1, Xx.T) 
dbl = / mw* np.sum(dq21，axis=1，keepdqims=True) 
grads = {"qN1":qW1， 
"dBlL" dB1, 
"GW2" :dW2, 
"qb2'"s db2} 
return grads 
def update parameters (parameters, grads, learning rate): 


使 用 梯度 更 新 参数 

Args: 
parameters: 包含 所 有 参数 的 python 字 典 
grads: 包含 所 有 参数 梯度 的 python 字 典 


Learning rate: 学 习 步 长 
Return: 
parameters :包含 更 新 后 参数 的 python 字 上 典 
Wi1 = parameters["W1"] 
bl = parameters["b1"] 
W2 = parameters{["W2"] 
b2 = parameters["b2"] 
dWl1 = grads["qdW1"] 
dbl1 = grads["db1"] 
dW2 = grads["qdW2"] 
db2 = grads["db2"] 
Wl = Wl — Learning rate * dWw] 
W2 = W2 - learning rate * dW2 
bl = bl - learning rate * dbl 
b2 = b2 - learning rate * db2 
parameters = {"W1l":Wi1, 
Wo 2 
nW2 :页 2， 
"pbp2":p2} 


return parameters 


(3) 神经 网 络 模 型 
前 向 传播 、 成 本 冰 数 计算 和 后 向 传播 构成 了 一 个 完整 的 神经 网 络 ， 将 上 述 函 数组 合 ， 构 建 一 个 神经 网 络 模型 ， 如 代码 清单 4- 7 所 示 : 


代码 清单 4-7 神经 网 络 模型 


def train(X, Y, n h, num iterations, print cost=False): 

定义 神经 网 络 模型 ， 把 之 前 的 操作 合并 到 一 起 
Args: 

X: 输入 值 

Y: 真实 值 

n h: 隐藏 层 的 节点 数 

num iterations: 训练 次 数 

print cost: 设置 为 True， 每 1000 次 训练 打印 成 本 函数 值 
Return: 

parameters: 模型 训练 所 得 参数 ， 用 于 预测 


np.random. seed (3) 


n x = layer size(X, Y) [0] 
ny 二 layer size(X, Y) [2] 
# 和 初始 化 参数 


parameters = initialize parameters(n x, n h,n y) 


= parameters["W1"] 
bl = parameters["b1"] 
W2 = parameters["W2"] 
b2 = parameters["b2"] 


for i in range(0, num iterations): 
# 前 向 传播 


A2, cache = forward Propagate (X, parameters) 


# 成 本 计算 


cost = calculate cost (A2, Y, parameters) 


# 后 向 传播 


grads = backward propagate (parameters, cache, X, Y) 


# 参数 更 新 


Parameters = update parameters (parameters, grads) 


# 每 1000 次 训练 打印 一 次 成 本 函数 值 
if print cost and i % 1000 == 0: 

print ("Cost after iteration %i: %f" S$(i, cost)) 
return parameters 


(4) 预测 


通过 上 述 模型 可 以 计 


练 得 出 最 后 的 参数 ， 此 时 需 检测 其 准确 率 ， 用 训 


练 后 的 参数 预测 训 


练 的 输出 ， 大 于 0.5 的 值 视 作 1， 否 则 视 作 0， 然 后 计算 准确 率 ; 代码 与 第 3 章 对 应 部 分 一 致 ， 这 里 不 再 鳌 述 。 


之 后 对 获取 的 数据 进行 训 


练 10 000 次 (times 取 10 000 即 可 ) ， 并 输出 准确 率 (绘制 代码 同 第 3 章 ) ， 输 出 结果 如 下 : 


Cost after iteration 0: 0.693168 

Cost after iteration 1000: 0.029885 

Cost after iteration 2000: 0.020446 

Cost after iteration 3000: 0.017207 
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Cost after iteration 7000: 0.012677 加 本 
Cost after iteration 8000: 0.012130 

Cost after iteration 9000: 0.011675 

train: 99.6875 

test: 99.75 


cost 折 线 图 如 图 4-7 所 示 ， 分 类 结果 如 图 4-8 所 示 。 


成 本 


7 4 8 
迭代 (每 百 次 碗 代为 一 个 单位 ) 


图 4-7 ” cost 折线 图 


2 个 隐 媚 屋 的 决 这 边界 


一 主 : 疙 一 弟 : 站 一 要 0.0 0.5 1.0 ] :3 
xl] 


图 4-8 神经 网 络 分 类 结果 


4.3.2 ”PaddlePaddle 版 本 


本 节 将 使 用 PaddlePaddle 构 建 神经 网 络 模型 


基本 一 致 ， 区 别 在 于 增加 了 一 个 隐藏 层 ; 


1. 库 文件 


首先 载 入 相关 包 和 库 文件 ， 如 代码 清单 4-8 所 示 ; 


代码 清单 4-8 引用 库 文件 


impor 


matplotlib.use 


impor 
impor 


jmpor 


impor 


lib 
('Agg') 


上 matplot 


t matplotlib.pyplot as 
t numpy as np 
t paddle.v2 as pagddle 


t utils 


2. 载 入 数据 和 数据 预 处 理 


此 步骤 仍 与 第 3 章 一致 ， 载 入 数据 并 对 其 作 预 处 理 ， 定 义 三 个 


类 似 ， 不 再 袭 述 。 


plt 


3. 定 义 reader 和 获取 数据 集 函 数 


定义 reader 的 函数 和 实现 ， 跟 第 3 章 中 所 用 到 的 代码 基本 相同 ， 


4. 获 取 数 据 


通过 train () 和 test () 


代码 清单 4-9 ”初始 化 


这 里 的 代码 中 增加 了 一 层 隐 藏 层 的 计算 ， 


全 局 变量 TRAINING SET、DATA DIM.、 


这 里 不 再 袭 述 。 


函数 分 别 获取 训练 和 测试 数据 ， 如 代码 清单 4-9 所 示 ; 


合 输出 层 。 


TEST_SET 分 别 表示 最 终 的 训练 数据 集 


， 依 然 是 解决 螺旋 图 案 的 分 类 问题 ， 对 比 神经 网 络 ( 双 层 ) 和 逻辑 回归 的 结构 ， 前 者 仪 仅 多 了 一 层 隐藏 层 ， 因 此 本 节 的 代码 与 第 3 章 PaddlePaddle 部 分 代码 
并 将 其 输出 值 作为 输入 ,传递 


、 数 据 特征 数 和 训练 数据 集 ， 载 入 数据 的 过 程 跟 Python 版 本 


def 


使 月 


get data (data creator): 


Args: 


data creator: 


Return: 


包含 测试 数据 ( 


Result: 


参数 data_creator 来 获取 测试 数据 


源 ， 可 以 是 


(image) 和 标签 (label) 的 py 


data creator = data creator 


data image = 
data label = 


[] 
[ 


for item in data Creator () : 
data image .appenq( (item[0] 
data label .append (item[1] 


7 ) ) 
) 


result = { 


} 


"image": 
"label": 


data image 
data label 


return result 


5. 配 置 网 络 结构 


网 络 结 


网 络 一口 


代码 清单 4-10 ”配置 网 络 结构 


def 


# 搭建 神经 网 络 结构 
network config(): 
配置 网 络 结构 和 设置 参数 
Args: 

Return: 


# 输入 层 ，pagdqdle.1layer.data 表 示 数 据 层 ，name= 
# type=paddle.data type.dense vector (DATA DIM 


image: 输入 层 ，DATAD] 


构 是 与 逻辑 回归 不 同 的 地 方 ， 


r 


train () 


[M 维 稠密 向 量 


y predict: 输出 层 ，Sigmoigd 作 为 激活 函数 


y_label: 


标签 数据 ，1 维 


稠密 向 量 


cost: 损失 函数 
Parameters: 模型 


optimizer: 优 化 器 


参数 


feeding: 数据 映射 python 字典 


image = paddle.layer.datal( 


# 隐藏 层 ，padggl 
# size=4: 神 经 元 个 数 ，act=pagddle.activation.Tanh () 
higdden layer | 


# 输出 层 ，paddle. 
# size=1 :人 神经 元 个 数 ，act=paddle.activation.Sigmoid 1() 
y predict 


# 数据 层 ，padgdqdle.] 
# type=paddle.data type.dense Vector ( 
y_label = pagdq] 


name='image', type=paddle.data type.dense Vector (DATA DI 


fc 表示 全 连接 


e.layer. 


= paddle. 


layer.fc( 


或 者 test 


() 


thon 字 典 


这 里 增加 了 一 层 隐 藏 层 并 设置 了 4 个 节 


慨 ，input=image: 该 层 输入 数据 为 image 


input=image, size=4, act=paddle.activation.Tanh()) 


layer .1 


Fc 表示 全 连接 层 


= paddle.1laye 


Ee( 


input=hidden . 


layer.d. 


le.layer. 
name="'label', 


ata 表 示 数 于 


datal 


# 损失 函数 ， 使 用 交叉 炳 损失 函数 


cost = paddle.!] 


慨 ，input=image: 该 层 输 入 数据 为 h1 


) :数据 类 型 为 DATA_DIM 维 稠密 向 量 
IM) ) 
:激活 函数 为 Tanh () 
() :激活 函数 为 Sigmoiq () 


layer 1, size=1, act=paddle.activation.Sigmoid()) 


) :数据 类 


# 创建 parameters 
parameters = paddle.parameters.create (cost) 


型 


型 为 1 维 


稠 


届 层 ， ee 


密 向 量 


# 创建 optimizer 
optimizer = paddle.optimizer.Momentum (momentum=0, learning rate=0.0005) 


type=paddle.data type.dense vec 


tor (1)) 


ayer.multi binary label cross entropy cost (input=y predict, 


label=y label)t# 


点 ， 故 令 size=4， 使 用 Tanh 激 活 函 数 ， 输 出 层 使 用 Sigmoid 激 活 函 数 ， 如 代码 清单 4-10 所 示 ; 


# 数据 层 和 数组 索引 映射 
feeding = { 
'ijmage': 0, 
'label': 1} 
return [image, y predict, y label, cost, parameters, optimizer, feeding] 


接 下 来 ， 定 义 成 本 函数 ， 仍 然 使 用 PaddlePaddle 提 供 的 交叉 粒 损 失 函 数 ， 并 使 用 y_predict 与 y_ label 计 算 成 本 。 之 后 ， 还 是 用 接口 parameters=paddle.parameters.create (cost) 来 创建 和 初始 化 参 


数 。 
参数 创建 完成 后 ， 定 义 参 数 优化 器 optimizer=paddle.optimizer.Momentum (momentum=0，learning _rate=0.007 5) ， 使 用 Momentum 作 为 优化 器 ， 并 设置 动量 momentum 为 零 ， 学 习 率 为 
0.000 5。 


feeding={ ‘image”: 0， ‘label : 人 是 数据 层 名 称 和 数组 索引 的 映射 ， 用 于 在 训练 时 输入 数据 ，costs 数 组 用 于 存储 cost 值 ， 记 录 成 本 变化 情况 。 

最 后 定义 函数 event_handler (event) 用 于 事件 处 理 ， 事 件 event 中 包含 batch_id、pass_id、cost 等 信息 ， 读 者 可 以 打印 这 些 信息 或 进行 其 他 操作 ， 具 体 实现 如 代码 清单 4-11 所 示 : 
代码 清单 4-11 ”配置 网 络 结构 

# 记录 成 本 cost 


costs = |[] 


# 事件 处 理 


ler (event): 


事件 处 理 器 ， 可 以 根据 训练 过 程 的 信息 作 相 应 操作 


QQ 
人 
hh 
(0 
< 
人 
3 
( 
9 
3 
(eo 


牛 对 象 ， 包 仿 event .pass id，event.batch id，event.cost 等 信息 


(0 

< 

0 

[到 

( 

| 

1 
中 

出 
~ 


if isinstance (event, paddle.event.EndIiteration): 

If event.pass id $ 1000 == 0: 
print ("Pass %d, Batch %d, Cost %f" $ (event.pass id, event.batch id, event.cost)) 
costs.append (event .cost) 
# with open('params pass %d.tar' % event.pass id, 'w') as 工 : 
# parameters.to tar (f) 


6. 准 确 度 计算 
下 面 准备 准确 度 计算 函数 ， 在 模型 训练 完毕 之 后 ， 用 训练 集 和 测试 集 分 别 计算 模型 准确 率 ， 如 代码 清单 4-12 所 示 : 


代码 清单 4-12 ”训练 集 准 确 度 计算 


def calc accuracy (probs, data): 


根据 数据 集 来 计算 准确 度 accuracy 


Args: 
probs: 数据 集 的 预测 结果 ， 调 用 paddle .infer () 来 获取 
data: 数据 集 

Return: 


calc accuracy: 训练 准确 度 


right = 
total = len (data['label']) 
for i in range (len (probs)): 
if float(probs[i][0]) > 0.5 and datal'label'] [i] == 1: 
right += 1 
elif float (probs[i][0]) < 0.5 and data[l'label'] [i] == 
right += 1 
accuracy = (float(right) / float (total)) * 100 


return accuracy 


7. 模 型 训练 与 检验 
上 述 内 容 进行 了 初始 化 并 配置 了 网 络 结构 ， 接 下 来 利用 上 述 配 置 进行 模型 训练 。 


首先 定义 一 个 随机 梯度 下 降 trainer， 配 置 三 个 参数 : cost、parameters、update equation， 它们 分 别 表示 成 本 国 数 、 参 数 和 更 新 公式 。 运 行 trainertrain () 开始 训练 ， 该 函数 各 个 参数 合 义 与 上 一 
章 一 致 ， 这 里 不 再 碍 述 ， 具 体 实 现 如 代码 清单 4-13 所 示 : 


代码 清单 4-13 ”模型 训练 


# 构造 trainer 
trainer = paddle.trainer.SsGD( 
Cost=cost, parameters=parameters, update equation=optimizer) 
# 模型 训练 
trainer.trainl( 
reader=paddle .batch ( 
paddle.reader.shuffle (train(), buf size=5000), 
batch size=256), 
feeding=feeding, 
event handler=event handler, 
num passes=10000) 


def infer(y predict, parameter): 
预测 并 输出 准确 性 
Args: 
Y_predict: 输 出 层 ，DATA DIM 维 绸 密 向 量 
Parameters :训练 得 到 的 模型 参数 
Return: 
# 获取 测试 数据 和 训练 数据 ， 用 来 验证 模型 准确 度 
train data = get data (train ()) 
test data = get data (test () ) 


# 根据 train data 和 test gata 预 测 结果 ，output layer 表 示 输 出 层 ，parameters 表 示 模 型 参数 ，input 表 示 输 入 的 测试 数据 
probs train = paddle.infer( 

output layer=y predict, 

parameters=parameters, 

input=train data[l'image'] 


) 

probs test = paddle.infer\( 
output layer=y predict, 
parameters=parameters, 
input=test datal[l'image'] 


) 


# 计算 train accuracy 和 test accuracy 
print ("train accuracy: {} %".format (calc accuracy (probs train, train data))) 
print ("test accuracy: {} %$".format (calc accuracy (probs test, test data))) 


# 绘 制 成 本 函数 折线 图 


plot costs (costs) 


模型 训练 完毕 ， 每 1000 次 输出 一 次 成 本 国 数 ， 观 察 变化 ， 如 图 4-9 所 示 ， 同 时 输出 准确 率 ; 


Pass 0, Batch 0，Cost 0.742302 
Pass 0, Batch 1, Cost 0.725055 
Pass 1000, Batch 0, Cost 0.019955 
Pass 1000, Batch 1, Cost 0.012705 
Pass 2000, Batch 0, Cost 0.015487 
Pass 2000, Batch 1, Cost 0.002134 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17642/0EBPS/Text/..http://www.hzcourse.com/resource/readBook?path=/openresources/teach er 
Pass 9000, Batch 0, Cost 0.002404 

Pass 9000, Batch 1, Cost 0.024329 

train accuracy: 100.0 % 

test accuracy: 99.75 % 


学 习 率 =0.0075 
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0.7 


0.6 


0 $0 100 150 200 
迭代 (每 百 次 迭代 为 一 个 单位 ) 


图 4-9 ”成 本 函数 变化 情况 及 准确 率 


对 比 结果 可 看 出 ， 对 于 浅 层 神经 网 络 ，PaddlePaddle 框 架 和 Python 训练 出 的 模型 准确 率 相近 ， 不 同 之 处 在 于 不 用 显 式 地 定义 各 个 过 程 ， 只 需要 简单 地 配置 网 络 结构 和 trainer 即 可 ， 同 时 提供 多 种 灵活 
简单 的 方式 优化 模型 。 


本 章 小 结 


本 章 由 儿童 自 闭 症 的 诊断 引出 神经 网 络 结构 ， 进 一 步 归纳 出 概念 。 然 后 介绍 神经 网 络 的 结构 和 层 数 计算 。 计 算 方面 ， 神 经 网 络 也 分 为 前 向 传播 和 后 向 传播 ， 实 际 上 是 逻辑 回归 的 扩展 ， 在 学 习 了 上 一 章 
之 后 读者 能 很 快 熟 悉 并 掌握 神经 网 络 的 计算 一 一 与 逻辑 回归 的 区 别 在 于 增加 了 隐藏 层 ; 前 向 传播 中 神经 网 络 每 个 节点 计算 过 程 与 逻辑 回归 一 样 ， 都 是 “线性 、 非 线性 ”两 步 ; 在 前 向 传播 结束 后 ， 计 算 损失 
函数 ， 进 行 后 向 传播 ( 即 BP 算 法 ) ， 后 向 传播 中 由 于 比 逻 辑 回 归 增 加 了 一 层 隐 藏 层 ， 推 导 过 程 更 加 复杂 ， 本 章 给 出 了 详尽 的 数学 推导 ， 和 希望 读者 能 详细 阅读 并 掌握 。 神 经 网 络 的 向 量化 计算 中 (包括 前 向 和 
后 向 传播 ) ， 先 根据 单个 样本 的 推导 结果 进行 “推测 ”， 从 结果 入 手 进行 证 明 ， 使 读者 更 容易 掌握 推导 过 程 。 


在 神经 网 络 的 代码 实现 方面 ， 本 章 分 Python 版 本 和 PaddlePaddle 版 本 分 别 介绍 ， 介 绍 Python 版 本 的 主要 目的 是 用 代码 的 形式 回顾 理论 内 容 ， 加 深 读者 对 神经 网 络 计算 的 理解 。 深 度 学 习 的 代码 实现 一 
般 使 用 框架 来 完成 ， 本 章 使 用 PaddlePaddle 框 架 实 现 一 个 双 层 神经 网 络 ， 来 完成 螺旋 图 案 的 分 类 ， 使 用 时 只 需 简单 地 配置 网 络 结构 和 trainer 即 可 ， 其 余 过 程 均 被 封装 由 框架 完成 ， 训 练 速度 较 Python 版 本 
更 快 (这 一 点 在 下 一 章 会 更 为 明显 ) ， 同 时 还 提供 多 种 简单 的 方式 来 优化 模型 。 


本 章 是 深度 学 习 的 “入 门 章节 ”， 希 望 读 者 牢 牢 掌握 ， 为 后 续 章节 的 学 习 打下 基础 。 


本 章 参 考 代码 详 风 https://github.com/BaiduOSS/DeepLearningAndPaddleTutorial 下 lesson4 子 目录 。 


第 5 草 ”深层 神经 网 络 


上 一 章 主要 讲述 了 浅 层 神 经 网 络 的 相关 细节 ， 本 章 将 浅 层 网 络 的 知识 扩展 到 深层 网 络 ， 帮 助 读者 对 神经 网 络 算法 建立 宏观 的 认识 。 本 章 首先 通过 ImageNet 大 赛 来 回顾 多 年 来 深度 学 习 的 发 展 历程 ， 进 
而 总 结 出 一 个 基本 趋势 : 对 于 神经 网 络 来 说 ， 在 一 定 学 围 内 深度 越 大 能 力 越 强 。 然 后 ， 从 浅 层 开 始 展示 网 络 演化 的 过 程 ， 给 出 具体 的 例子 使 读者 直观 理解 深度 越 大 拟 合 度 会 越 好 、 网 络 的 能 力 越 强 。 接 着 ， 
总 结 神经 网 络 算法 的 核心 思想 : 三 个 算法 协同 工作 。 这 三 个 算法 分 别 是 前 向 传播 、 后 向 传播 和 梯度 下 降 。 在 读者 了 解 了 理论 知识 之 后 ， 分 别 使 用 Python 原生 代码 库 和 PaddlePaddle 框 架 实 现 深度 神经 网 络 
对 猫 脸 的 识别 ， 从 而 使 读者 感受 到 在 问题 变 得 较为 复杂 后 深度 学 习 框 架 PaddlePaddle 给 开发 带 来 的 便捷 。 


学 完 本 章 ， 希 望 读 者 能 够 掌握 以 下 知识 点 : 
(1) 一 定 范围 内 深层 网 络 比 浅 层 网 络 能 力 更 强 。 
(2) 神经 网 络 的 工作 原理 : 前 向 传播 过 程 、 后 向 传播 过 程 和 梯度 下 降 过 程 。 
(3) 常见 的 网 络 参数 有 哪些 ， 网 络 参数 与 超 参 数 的 区 别 。 


(4) 使 用 PaddlePaddle 搭 建 深 层 网 络 。 


一 般 来 说 ， 深 度 学 习 中 网 络 深度 越 大 其 拟 合 能 力 越 强 。 接 下 来 分 别 介绍 历史 上 深度 网 络 带 来 的 优势 和 总 结 深度 网 络 中 符号 的 使 用 方法 及 意义 。 


5.1.1 ”深度 影响 算法 能 力 


浅 层 神 经 网 络 能 够 解决 很 多 实际 问题 ， 但 是 由 于 其 结构 简单 、 层 数 较 少 在 处 理 复杂 问题 时 的 效果 很 难 让 人 满意 。 开 发 者 通过 不 断 增 多 层 数 来 解决 算法 能 力 不 足 的 问题 。 随 着 深度 的 增加 ， 算 法 可 以 满足 
严格 的 工业 级 别 的 需求 ， 在 某 些 场景 下 接近 甚至 超过 人 类 的 水 平 。ImageNet 大 赛 的 发 展 历程 从 侧面 反映 了 网 络 深度 与 算法 能 力 的 相关 性 。lImageNet 大 赛 是 全 球 范围 内 计算 机 视觉 领域 中 的 顶级 赛事 ， 从 
2010 年 到 2017 年 每 年 举办 一 次 ， 吸 引 了 世界 各 国 的 大 学 、 研 究 机 构 和 公司 参加 。 


多 年 来 ImageNet 大 赛 产 生 了 许多 重要 的 模型 ， 这 些 模型 在 人 工 智能 发 展 道路 上 具有 里 程 碑 式 的 意义 。ImageNet 大 赛 所 使 用 的 数据 来 自 于 斯 坦 福 大 学 李 飞 飞 教 授 牵头 创立 的 图 像 数据 库 ImageNet。 
ImageNet 是 一 个 非常 庞大 的 图 像 数 据 库 ， 里 面 有 1 000 个 子 类 目 超过 120 万 张 图 片 。 


ImageNet 大 赛 发 展 的 历程 正 是 深度 学 习 发 展 的 一 个 缩影 。 它 的 分 类 错误 率 的 标准 是 让 算法 选 出 最 有 可 能 的 5 个 预测 ， 如 果 有 一 个 正确 则 算 通 过 ， 如 果 都 没有 则 算 错 误 。 赛 事 举 办 的 前 两 年 手工 设计 特征 
+ 编码 +SVM 框 架 下 的 算法 占据 了 前 几 名 。2010 年 和 2011 年 的 冠军 分 别 被 NEC 余 凯 带 领 的 研究 小 组 和 施乐 欧洲 研究 中 心 的 小 组 获得 ， 他 们 的 错误 率 分 别 是 28% 和 25.7%。 然 而 ， 接 近 三 分 之 一 的 错误 率 显 然 
是 无 法 让 人 满意 的 ， 于 是 很 多 人 努力 寻找 传统 机 器 学 习 之 外 更 加 强大 的 算法 。 

传统 机 器 学 习 的 统治 地 位 很 快 被 深度 学 习 取 代 。2012 年 ，Hinton 的 研究 生 Alex 使 用 5 个 卷 积 层 +3 个 全 连接 层 的 卷 积 神经 网 络 AlexNet 拔 得 头筹 。 这 个 共 8 层 的 网 络 的 错误 率 为 15.3% ， 其 成 绩 远 远 超过 同 
年 第 二 名 的 错误 率 26.29%。 从 此 深度 学 习 开始 席卷 整个 机 器 学 习 世 界 。2013 年 ， 获 得 大 赛 冠军 的 Matthew Zeiler 同 样 使 用 8 层 网 络 ， 把 错误 率 降 到 了 11.7%。 在 机 器 学 习 领 域 ， 每 降 1% 的 错误 率 都 十 分 困 
难 ， 这 个 成 绩 再 次 证 明了 深度 学 习 的 优势 。 自 2013 年 以 来 几乎 所 有 的 参赛 者 都 使 用 基于 卷 积 神经 网 络 的 深度 学 习 算 法 ， 形 成 鲜明 对 比 的 是 那些 没有 使 用 深度 神经 网 络 的 参赛 者 ， 他 们 都 处 于 垫底 的 位 置 。 

从 2014 年 开始 网 络 加 深 的 趋势 变 得 更 加 明显 (如 图 5-1 所 示 ) 。2014 年 Google 的 工程 师 克 里 斯 蒂 安 提出 了 Inception 的 结构 ， 并 且 基 于 这 种 结构 搭建 了 一 个 22 层 的 卷 积 神经 网 络 GoogLeNet。 他 将 错误 
率 降 到 了 6.66%， 并 凭借 这 个 成 绩 获得 了 当年 的 冠军 。 到 了 2015 年 ， 微 软 亚 洲 研究 院 的 何 凯 明 提 出 了 深度 残 差 网 络 (ResNet) ， 并 搭建 了 深 达 152 层 的 网 络 ， 这 个 网 络 将 错误 率 降 至 3.57%。 与 此 相 比 ， 经 
过 训练 的 人 类 的 错误 率 为 5.1%， 也 就 是 说 在 一 定 程度 上 机 器 的 表现 已 经 超过 人 类 。 
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图 5-1 ImageNet 大 赛 错 误 率 与 网 络 层 数 示 意 
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在 2016 年 和 2017 年 的 大 赛 中 ， 华 人 科学 家 和 中 国 的 机 构 与 公司 表现 非常 抢眼 。 海 康 威 视 、 商 汤 科技 等 中 国 公司 在 2016 年 大 放 异彩 ， 而 公安 部 三 所 的 搜 神 (Trimps-Soushen) 代表 队 以 前 5 错误 率 
2.99% 的 成 绩 夺 得 冠军 。2017 年 ， 奇 虎 360 团 队 、 南 京 信息 工程 大 学 团队 、 中 国 自动 驾驶 技术 公司 Momenta 表 现 优异 。 其 中 Momenta 团 队 独 立 发 明了 SE 模 块 ， 他 们 将 此 模块 嵌入 残 差 网 络 中 。 新 的 网 络 比 
原生 网 络 更 加 强大 ， 最 终 他 们 的 融合 模型 在 测试 集 上 获得 了 2.251% 的 前 5 错误 率 并 因此 夺 得 冠军 。 


2016 年 ImageNet 大 赛 的 图 像 识别 错误 率 已 经 达到 约 2.99%， 远 远 超越 人 类 平均 水 平 的 5.1%。 至 此 ， 这 类 竞赛 已 经 完成 了 它 的 历史 使 命 ， 失 去 了 存在 的 意义 ， 于 是 在 2017 年 举办 完 最 后 一 届 之 
后 ，ImageNet 将 停止 举办 。 回 顾 整 个 mageNet 大 赛 的 发 展 史 能 够 发 现 ， 深 度 学 习 的 网 络 层 数 从 8 层 一 直到 152 层 逐步 增加 ， 同 时 网 络 的 计算 能 力 越 来 越 强 。 


5.1.2 ”网 络 演化 过 程 与 常用 符号 


前 面 已 经 介绍 过 单 层 网 络 和 浅 层 网 络 。 单 层 网 络 只 有 输入 值 (向量) 和 输出 值 (标量 或 者 向 量 ) ， 如 图 5-2a 所 示 。 比 单 层 网 络 复杂 一 点 的 是 浅 层 网 络 。 除 了 输入 与 输出 之 外 ， 浅 层 网 络 增加 了 隐藏 层 。 
隐藏 层 使 网 络 的 计算 能 力 变 得 更 强 。 第 一 个 出 现 的 隐藏 层 记 作 LI]， 如 图 5-2b 所 示 。 第 一 个 隐藏 层 之 后 是 第 二 个 隐藏 层 、 第 三 个 隐藏 层 .… 网络 的 层 数 和 网 络 的 第 一 层 这 两 个 约定 俗 成 的 概念 需要 读者 特别 留 
意 。 网 络 的 层 数 指 的 是 网 络 中 输出 层 和 隐藏 层 的 数量 的 总 和 ， 例 如 图 5-2b 所 示 是 一 个 2 层 网 络 、 图 5-2c 所 示 是 一 个 3 层 的 网 络 。 网 络 的 第 一 层 指 的 并 不 是 输入 层 而 是 除了 输入 层 之 外 的 第 一 个 层 ， 例 如 图 5-2a 
所 示 第 一 层 就 是 输出 层 (因为 这 是 个 单 层 网 络 ) 、 图 5-2c 所 示 第 一 层 是 LI1]。 为 了 统一 表述 故意 将 成 输入 层 命名 为 Liol， 如 图 5-2c 所 示 ， 有 时 也 会 将 输入 层 命名 为 第 0 层 。 


n[1 的 值 为 4，n 四 的 值 为 3。 输 入 层 n[O] 的 值 为 3 (输入 向 量 由 3 个 分 量 组 成 ) 。 为 了 方便 ， 使 用 a 鼎 来 表示 第 i 层 激活 函数 的 返回 值 ， 即 激活 值 (例如 ，a[1 表 示 第 一 个 隐藏 层 的 激活 值 ) 。 此 外 ， 用 z 四 表示 第 亡 
的 中 间 结 果 ( 即 线性 变换 之 后 的 结果 ) ， 用 gl 表示 第 i 层 的 激活 函数 ， 于 是 这 三 个 标记 的 关系 如 式 (5-1) 和 式 (5-2) 所 示 : 


pa = (wi) . qt lp ( Ss_] ) 


al = gll(zD) ( 5-2) 


在 已 经 确定 了 某 一 层 的 情况 下 ， 使 用 右 下 角 标 配合 数字 的 方式 来 表示 这 一 层 中 的 基 个 单元 ， 如 图 5-33a 所 示 ， 可 以 观察 到 第 二 个 隐藏 层 中 共有 3 个 单元 。 通 常 使 用 3 表示 该 层 计算 后 的 激活 值 组 成 的 向 量 ， 
7 
使 用 4 此 表示 第 二 层 的 第 一 个 元 素 的 激活 值 ， 使 用 02 马 表示 第 二 层 的 第 二 个 元 素 的 激活 值 。 更 一 般 的 ， 使 用 4 表示 第 二 层 的 第 ] 个 元 素 的 激活 值 . 


Le 


b) 


图 5-3 ”网 络 中 标注 的 意义 

除了 隐藏 层 使 用 上 、 下 角 标 分 别 表示 层 和 层 内 元 素 的 方式 外 ， 输 入 层 和 输出 层 也 采用 上 、 下 角 标 的 方式 来 表示 某 个 样本 和 其 对 应 的 元 素 。 当 只 考虑 单个 输入 样本 x 的 时 候 ， 只 需要 关心 这 个 向 量 有 几 个 分 

量 ， 通 过 Xx 的 右 下 角 标 表 示 第 i 个 分 量 ， 例 如 x1 表示 第 一 个 分 量 ，x2 表 示 第 二 个 分 量 (如 图 5-3a 所 示 ) 。 可 是 ， 实 际 开发 中 输入 的 样本 有 很 多 。 为 了 区 分 多 个 样本 向 量 和 每 个 样本 向 量 中 的 分 量 ， 使 用 右上 角 
标 配合 圆 括号 的 方式 表示 第 k 个 样本 向 量 ， 用 右 下 角 标 表示 第 个 分 量 。 与 第 k 个 输入 对 应 的 输出 表示 为 

深层 网 络 是 在 浅 层 网 络 的 基础 上 发 展 而 来 的 更 加 复杂 的 网 络 。 随 着 层 数 的 加 深 ， 深 层 网 络 的 拟 合 能 力 越 来 越 强 。 事 实 上 ， 浅 层 网 络 、 深 层 网 络 是 一 个 约定 俗 成 的 称呼 ， 然 而 到 底 多 少 层 是 浅 层 ， 达 到 多 


层 是 浅 导 
少 层 之 后 算是 深层 网 络 并 没有 一 个 明确 的 阔 值 。 在 实际 应 用 中 ， 我 们 建立 的 网 络 应 该 使 用 多 少 层 是 无 法 预先 知晓 的 。 通 常 的 做 法 是 由 浅 层 网 络 开 始 尝试 ， 观 察 运行 结果 ， 如 果 效 果 不 佳 就 逐步 加 深 网 络 ， 通 
过 不 断 加 深 网 络 最 终 得 到 一 个 满意 的 结果 。 


5.2 ”传播 过 程 


本 节 首 先 用 简短 的 语言 总 结 神经 网 络 算法 的 核心 思想 ， 然 后 分 别 从 前 向 传播 和 后 向 传播 两 个 角度 再 现 算法 的 计算 过 程 。 


5.2.1 “神经 网 络 算法 核心 思想 


神经 网 络 是 一 种 机 器 学 习 算 法 ， 而 机 器 学 习 算法 基本 思路 用 一 句 话 概括 就 是 : 损失 函数 L 的 优化 问题 。 所 谓 的 优化 就 是 不 断 调整 参数 (w，b) 使 得 损失 函数 的 值 尽 可 能 小 。 调 整 参 数 的 具体 手段 就 是 梯 
度 下 降 算 法 。 梯 度 下 降 算法 是 一 个 算法 自我 迭代 的 过 程 ， 迭 代 的 结果 就 是 最 终 逼 近 极 小 值 点 ， 如 式 (5-3) 和 式 (5-4) 所 示 ， 其 中 a 表示 学 习 率 。 在 梯度 下 降 算法 中 dw 表示 相对 损失 函数 L 关 于 参数 w 的 偏 导 
eoL eoL 
数 | 外 站)，db 表 示 对 于 损失 函数 [关于 参数 b 的 偏 导 数 | 外 天 | 为 了 获得 dw 和 db 的 具体 值 ， 需 要 神经 网 络 依次 经 历 前 向 传播 过 程 和 后 向 传播 过 程 ， 


w=w—adw ( $5-3) 


b=b—adb ( 5-4) 


神经 网 络 算法 的 核心 三 步 是 : 前 向 传播 、 后 向 传播 和 梯度 下 降 。 神 经 网 络 先 要 经 历 前 向 传播 的 过 程 ， 然 后 再 经 历 后 向 传播 的 过 程 。 前 向 传播 的 本 质 就 是 根据 输入 的 样本 向 量 x 经 过 神经 网 络 得 出 预测 值 了 
的 过 程 。 只 有 在 前 向 传播 得 到 了 少 之 后 ， 损 失 函 数 ( 多 ，J) 才 能 计算 。 而 逆向 传播 的 本 质 就 是 从 最 终 输 出 的 损失 函数 开始 逆向 回 退 ， 根 据 求 导 的 链 式 法 则 最 终 求 出 所 有 参数 的 偏 导数 的 过 程 。 下 面 由 简单 到 
杂 逐 步 呈现 前 向 传播 和 后 向 传播 的 过 程 。 


复 


5.2.2 ”深层 网 络 前 同 传播 过 程 


前 向 传播 过 程 就 是 从 输入 向 量 开始 顺 着 网 络 向 后 计算 的 过 程 (如 图 5-4a 所 示 ) 。 从 层 的 角度 来 看 ， 前 向 传播 就 是 将 前 一 层 的 信息 进行 加 工 然后 再 传递 给 下 一 层 。 以 第 二 个 隐藏 层 Li2] 为 例 ， 该 层 的 输入 是 
LI 的 输出 。 由 于 本 网 络 是 一 个 全 连接 网 络 ， 所 以 该 层 的 每 个 节点 单元 的 输入 向 量 ar1] 的 维 数 都 是 5。 输 入 向 量 被 该 层 加 工 之 后 会 生成 一 个 新 的 向 量 ， 该 向 量 作为 该 层 的 输出 传递 给 下 一 层 。Li2 的 5 个 节点 音 
元 的 输出 值 共 同 组 成 了 一 个 维 数 为 5 的 向 量 ， 也 就 是 本 层 的 前 向 传播 的 输出 值 向 量 aD2。 从 节点 单元 的 角度 来 看 ， 每 一 个 节点 单元 都 把 从 上 一 层 接 到 的 向 量 作为 输入 。 每 个 节点 单元 相继 完成 线性 变换 和 激 
活 ， 进 而 产生 一 个 标量 作为 输出 。 图 5-4b 给 出 了 Lz 层 中 第 2 个 节点 内 部 的 计算 过 程 。 在 Lz 中 第 i 个 节点 单元 的 参数 是 wj 和 bi，wi 是 一 个 维 数 为 5 的 向 量 ，b 温 一 个 标量 。 总 结 前 向 传播 过 程 可 以 描述 为 第 LU 层 


所 有 节点 的 输出 值 构成 向 量 a 由， 并 将 此 向 量 输出 到 下 一 层 LI+1] 的 过 程 。 


图 5-4 深层 网 络 与 节点 内 部 结构 


从 数学 角度 讲 ， 深 层 网 络 的 前 向 传播 过 程 就 是 由 输入 向 量 x 得 到 输出 J 的 函数 计算 过 程 。 每 一 个 节点 实际 上 表示 一 个 线性 变换 与 一 个 非 线性 变换 的 复合 。 比 如 一 个 n 层 全 连接 网 络 ， 可 以 将 其 表示 为 式 
(5-5) : 


y=&, (mw [ (ws (Wx+b,0 )+b,,0,)...)+b,,0, ) 


= 8 /, gs (f(a (f(x),0)),0)... ,0 


其 中 ，fi (x) =wix+bj 表 示 线 性 变换 ，gj 表 示 激 活 函 数 ， 下 标 | 表 示 层 数 ，90 表 示 函 数 的 参数 (也 就 是 深度 学 习 的 超 参数 ， 第 10 章 将 重点 介绍 调整 超 参数 的 各 种 技巧 ) 。 注 意 x 是 输入 的 样本 向 量 ，w 趟 示 
权 值 矩阵 ，bj 表 示 偏 置 向 量 。 深 层 网 络 算法 要 解决 的 核心 问题 也 就 是 优化 上 述 公 式 中 的 wi、b 才 9， 其 中 wi 和 bi 是 算法 自动 学 习 得 到 的 。 


( $5-5 ) 


5.2.3 ”深层 网 络 后 向 传 播 过 程 

相对 于 前 向 传播 来 说 ， 后 向 传播 相对 更 复杂 一 些 。 深 层 网 络 的 后 向 传播 就 是 BP 算法 应 用 在 深层 网 络 中 (BP 算法 参见 4.2 节 ) 。 以 下 讲解 使 用 了 偏 导数 的 链 式 法 则 和 计算 图 后 向 传播 (参阅 1.2.2 节 微 积分 
基础 的 链 式 法 则 部 分 ) 

深层 网 络 的 后 向 传播 

后 向 传播 就 是 从 损失 函数 开始 沿 着 计算 图 逐步 向 前 一 层 一 层 求 出 参数 w 和 b 的 偏 导数 的 过 程 。 为 了 读者 更 容易 理解 ， 以 LI2] 为 例 具体 说 明 (如 图 5-5 所 示 ) 。 在 后 向 传播 中 Li2] 层 的 输入 是 Li3] 的 输出 〈 即 
daB]) ， 而 Li2] 的 输出 是 三 个 导数 它们 分 别 是 da 铅 ，dw[0 和 dbl， 其 中 dw[10 和 db[ 是 算法 真正 想得到 的 输出 (用 于 梯度 下 降 算 法 ) ， 而 da 四 是 为 了 帮助 下 一 步 的 计算 。 


六 天 加 Gar 
Se -党 订 \ 、 Oa; 
a ar Oa 
Y WO 人 pp Oba," ” 
Rl Bo Sm 


* 
学 六 
[二 
i 
Ed 


2 T oat 1 、 
a 
& oa 必 ae Bd Da 
: + ’ 3 Oa 


图 5-5 ”深度 网 络 后 向 传播 


从 网 络 中 的 节点 单元 角度 来 看 ， 每 个 节点 单元 在 A 接 下 来 求 这 两 个 值 ， 求 这 两 个 值 实质 就 是 求 复合 函数 的 偏 导数 。 以 如 图 5-5 所 示 黑 色 方 框 中 的 节点 单元 作为 例 。 
如 果 将 图 视 为 一 个 有 向 图 的 话 ， 从 损失 函数 [出 发 的 话 有 3 条 路 径 可 以 至 ya 。 每 条 路 径 事 实 上 都 表示 了 一 次 使 用 链 式 法 则 求 导 的 过 程 ， 而 这 3 条 路 和 径 最 终 是 以 求 和 的 形式 共同 决定 了 的 42 偏 导数 . 图 5-5 所 示 
是 以 图 形 化 的 方式 表达 了 反 向 传播 的 计算 过 程 ， 式 (5-6) 是 以 具体 算式 的 形式 表达 了 同样 的 意思 ( 链 式 法 则 知识 参阅 1.2.2 节 ) 。 
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[2] [4] a, [3] [4] [4] A [3 (5-7) 
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2.2.4 传播 过 程 总 结 


见 帘 化 


在 分 别 了 解 了 向 前 传播 过 程 和 向 后 传播 过 程 之 后 来 总 结 一 下 整个 传播 过 程 。 以 图 5-4a 中 的 第 二 层 为 例 ， 从 层 的 角度 观察 算法 计算 过 程 。 先 看 向 前 传播 过 程 (如 图 5-6 所 示 ) 。 该 层 输入 的 数据 实际 上 是 
前 一 层 的 输出 ， 也 就 是 长 度 为 5 的 向 量 al1]。 这 个 向 量 传 入 每 一 个 单元 ， 首 先 经 过 线性 变换 产生 一 个 中 间 什 ， 记 作 z， 然 后 将 这 个 z 传 入 本 单元 的 激活 函数 ( 非 线性 变换 ) 得 到 一 个 标量 ， 记 作 a。 具 体 以 该 层 
第 二 个 单元 为 例 ， 先 经 过 线性 产生 z7 ， 再 经 过 激活 函数 产生 4 ， 由 于 本 层 有 5 个 单元 ， 于 是 本 层 会 产生 两 个 长 度 为 5 的 向 量 分 别 是 z2 和 a[]， 而 a[2] 直 接 作为 输出 传递 给 第 三 层 ， 
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反 回 传播 过 程 


图 5-6 深度 网 络 中 某 层 的 传播 过 程 


观察 后 向 传播 过 程 。 输 入 是 由 第 三 层 产生 的 维度 为 3 的 向 量 da]， 以 第 二 层 第 二 个 单元 为 例 ， 向 量 da 中 的 每 一 个 元 素 分 别 对 4 求 偏 导数 ， 然 后 再 对 这 些 结果 求 和 就 得 到 了 该 单元 的 偏 导数 ， 记 作 do 
. 计算 44 的 过 程 实际 就 是 先 对 其 激活 函数 求 信 导 数 然后 对 线性 变换 求 偏 叶 数 ， 最 终 求 得 该 单元 的 权重 和 偏 置 的 偏 导数 dw2 和 dbz。 推 广 开 来 ， 该 层 的 每 一 个 元 素 都 会 产生 dai、dw 和 dbi。 把 它们 组 织 为 向 


量 形式 就 会 得 到 该 层 的 3 个 输出 向 量 ( 维 数 都 为 5 ， 记 作 da 后 、dw、db， 其 中 da 作为 输出 供 第 一 层 使 用 ，dw 和 db 用 于 梯度 下 降 。 


最 后 ， 从 整个 网 络 的 角度 来 总 结 整个 算法 的 运算 过 程 。 整 个 训练 过 程 如 图 ?5-7 所 示 。 众 所 周知 ， 所 谓 的 训练 就 是 在 成 二 上 万 个 变量 中 寻找 最 佳 值 的 过 程 。 这 需要 通过 不 断 尝 试 实现 收敛 ， 而 最 终 获 得 理想 
的 参数 。 在 深度 网 络 中， 参数 指 的 就 是 权重 w 和 偏 置 b。 图 中 上 半 部 分 描述 了 前 向 传播 过 程 ， 其 输入 值 是 x 向 量 。 中 间 部 分 描述 后 向 传播 过 程 ， 其 输入 值 是 损失 函数 L。 下 半 部 分 描述 了 梯度 下 降 算 式 ， 反 映 的 
是 多 次 迭代 这 个 过 程 。 最 终 训练 的 结果 是 找到 最 好 的 w 和 b。 
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5.3 ”网 络 的 参数 


对 于 机 器 学 习 来 说 有 两 个 重要 概念 一 一 参数 和 超 参 数 (简称 超 参 ) 。 人 参数 是 指 在 算法 运行 中 ， 机 器 通过 不 断 迭 代 不 断 修正 最 终 稳 定 的 值 ， 也 就 是 算法 最 终 学 会 的 值 。 超 参 是 指 开发 者 人 为 设 定 的 值 ， 一 
旦 设 定好 之 后 算法 在 运行 过 程 中 就 使 用 这 个 固定 值 。 


对 于 神经 网 络 来 说 ， 参 数 就 是 线性 变换 中 的 权重 和 偏 置 ， 例 如 w 罩 、b 凹 。 在 算法 开始 的 时 候 ， 算 法 会 随机 设置 权重 和 偏 置 的 值 。 通 常 这 些 值 都 是 很 小 的 接近 于 0 的 数 (但 是 不 为 0) ， 如 果 设 置 的 值 很 大 
会 可 能 导致 学 习 时 间 延 长 ， 如 果 设 置 为 0 在 某 些 时 候 会 使 得 偏 导数 为 0 而 无 法 更 新 。 


超 参数 的 设置 依赖 经 验 。 深 度 学 习 领 域 中 的 超 参 要 多 于 传统 机 器 学 习 中 的 。 到 目前 为 止 已 经 接触 过 的 超 参数 有 学 习 率 、 算 法 迭代 次 数 、 隐 藏 层 的 层 数 、 每 层 隐 藏 层 中 的 单元 数 、 每 个 单元 使 用 的 激活 函 
数 等 。 超 参数 的 设置 影响 着 最 终 参 数 的 学 习 得 到 的 值 。 在 深度 神经 网 络 中 其 他 常见 的 超 参 数 还 有 冲 量 、 批 量 的 大 小 等 。 


超 参 的 质量 会 影响 算法 的 性 能 。 在 开始 一 项 工作 前 ， 开 发 者 并 不 知道 超 参 到 底 设 置 为 什么 值 是 最 好 的 。 开 发 者 只 能 在 开发 过 程 中 不 断 党 试 进而 寻找 到 当前 场景 和 数据 条 件 下 最 好 的 超 参 值 。 一 般 情 况 
下 ， 开 发 者 首先 设置 一 些 参数 ， 然 后 观察 运行 的 结果 ， 根 据 结果 做 出 超 参 的 修正 ， 接 着 再 次 实验 ， 再 观察 结果 ， 人 循环 往复 这 个 过 程 直到 找到 满意 的 超 参 组 合 为 止 。 这 个 看 似 盲目 的 调 参 过 程 真正 考验 开发 者 
对 数据 和 算法 的 理解 。 关 于 调 参 的 具体 方法 和 技巧 我 们 将 在 第 10 章 详细 叙述 。 


5.4 ”代码 实现 


本 节 将 分 Python 版 本 和 PaddlePaddle 两 个 部 分 分 别 实现 深层 神经 网 络 ， 解 决 识别 猫 的 问题 ， 使 用 的 数据 与 第 3 章 一 致 。 


5.4.1 Python 版 本 


本 小 节 的 代码 与 第 3 章 Python 版 本 代码 大 体 一 致 ， 区 别 在 于 增加 了 3 层 隐藏 层 并 设置 了 不 同 节点 数 。 
1. 库 文件 
首先 载 入 库 文 件 ， 其 中 utils 文 件 包 含 需要 调用 的 函数 ， 如 代码 清单 5-1 所 示 。 


代码 清单 5-1 引用 库 文件 


import utils 


下 面 数据 载 入 和 数据 预 处 理 部 分 与 第 3 章 一 致 ， 均 在 utils 文 件 中 实现 ， 不 下 袭 述 。 
2. 建 立 神 经 网 络 模型 

对 比 第 3 章 的 逻辑 回归 ， 本 实验 模型 有 以 下 不 同 : 

(1) 在 输入 层 和 输出 层 之 间 增 加 3 层 隐藏 层 ， 共 有 3 层 隐藏 层 和 1 层 输 出 层 。 

(2) 隐藏 层 分 别 设 置 20、7、25 个 节 氮 。 

(3) 隐藏 层 激活 函数 使 用 ReLU 激 活 函 数 (输出 层 仍然 使 用 Sigmoid 激 活 函 数 ) 。 


本 实验 神经 网 络 结构 如 图 5-8 所 示 。 
得 入 层 隐 震 层 输出 层 
( 共 12288 个 太太 ) ( 隐 媚 层 有 三 屋 ， 分 别 有 (输出 层 包 含 一 个 三 反 ) 


图 5-8 神经 网 络 结构 图 


在 utils 文 件 中 已 包含 下 列 函 数 ， 在 实现 神经 网 络 模型 中 将 直接 调用 (下 列 函 数 在 第 4 章 Python 代 码 部 分 均 有 实现 ，plot_costs 函 数 同 第 3 章 ， 根 据 网 络 结构 不 同 略 有 差异 ) : 


# 初 始 化 参数 

def initialize parameters (layer): 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17642/0EBPS/Text/... 
return parameters 


# 前 向 传播 

def forward calculate (X，Parameters) : 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17642/0EBPS/Text/... 
return A, Z 


# 成 本 函数 

def calculate cost (A, Y): 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17642/0EBPS/Text/... 
return cost 


# 后 向 传播 〈 含 参数 更 新 ) 

def backward calculate (A, Z, parameters, Y, learning rate): 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17642/0EBPS/Text/... 
return parameters 


# 参 数 更 新 

def update parameters (p, dp, learning rate): 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17642/0EBPS/Text/... 
return p 


# 绘 制 cost 变 化 曲线 


def plot costs(costs, learning rate) : 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17642/0EBPS/Text/... 


Nm 
~ 


代码 清单 5-2 ”深层 神经 网 络 


深层 神经 网 络 模型 代码 实现 如 代码 清单 5-2 所 示 。 


# 设 置 神经 网 络 规模 ，5 个 数字 分 别 表 示 从 输入 层 到 隐藏 层 再 到 输出 层 各 层 节点 数 
layer = [12288, 20, 7, 5, 1] 


def deep neural network(X, Y, layer, iteration nums, learning rate = 0.0075): 


定义 函数 :深层 神经 网 络 模型 (包含 前 向 传播 和 后 向 传播 ) 


Args: 
X: 输入 值 
Y: 真实 值 


Return: 


parameters: 模型 训练 所 


layer: 各 层 大 小 
iteration nums :训练 次 数 
learning rate: 学 习 步 长 


np.random. seed (1) 


得 参数 ， 月 


于 预测 


costs = [] 
# 参 数 初 始 化 
parameters = initialize parameters (layer) 
# 训 练 
for 1 IH range (0, times): 
# 初 始 化 A 并 添加 输入 X 
# 正 向 传播 
A, 2 = forward Propagate (X, parameters) 
# 计 算 成 本 函数 


Cost = calculate cost (A, Y) 


# 反 向 传播 〈 含 更 新 参数 ) 


parameters = backward propagate (A, 2, parameters, Y, learning rate) 


if(i % 100 == 


print {Cost a 


) : 


# 每 100 次 训练 打印 一 次 成 本 函数 


CQ An 9 


fter iteration %i: $f" $(i, Cost)) 


costs.append (Cost) 
plot costs(costs, learning rate) 


return parameters 


下 面 开 始 训练 ， 训 练 2500 次 (times 取 2500) ， 观 察 成 本 函数 变化 : 


0: 0.693300 


100: 0.626363 
<00; 0.598279 


300: 0.5367805 


Cost after iteration 

Cost after iteration 

Cost after iteration 

Cost after iteration 
http://www.h 

Cost after iteration 1900: 
Cost after iteration 2000: 
Cost after iteration 2100: 
Cost after iteration 2200: 
Cost after iteration 2300: 
Cost after iteration 2400: 


3. 模 型 检验 


和 


Zcourse.com/resource/read] 
.053416 


通过 BP 算法 训练 得 到 参数 w 和 b， 用 该 参数 对 训 | 练 集 和 测试 机 分 别 进行 预测 ， 通 过 观察 准确 率 来 检验 模型 ,代码 与 第 3 章 对 应 部 分 基本 一 致 。 


在 训练 集 和 测试 集 上 进行 预测 ， 检 测 模型 准确 率 ， 其 输出 结果 为 : 


Train Accuracy: 100.0 
Test Accuracy: 74.0 $ 


加 


oO 


Book?path=/openresources/teach ebook/uncompressed/17642/0EBPS/Text/..http://www.hzcourse.com/resource/readBook?path=/openresources/teach er 


处 理 同样 的 数据 一 一 猫 的 识别 ， 从 结果 可 看 出 深层 神经 网 络 相 较 于 第 3 章 的 逻辑 回归 ( 单 层 ) 准确 率 有 提高 ， 这 是 因为 更 多 的 隐藏 层 能 拟 合 更 复杂 的 模型 ， 从 而 提高 识别 准确 率 。 


5.4.2 PaddlePaddle 版 本 


PaddlePaddle 版 本 使 用 同样 的 神经 网 络 模型 ， 该 版 本 代码 与 第 3 章 PaddlePaddle 部 分 代码 大 体 一 致 ， 区 别 在 于 增加 了 隐藏 层 并 设置 不 同 隐藏 层 节 


练 次 数 和 学 习 率 。 


1. 准 备 数 据 和 相关 预 处 理 


该 部 分 代码 均 与 第 3 章 PaddlePaddle 部 分 一 致 ， 引 用 库 文件 ( 见 代码 清单 5-3) 、 载 入 和 预 处 理 数据 、 准 备 训 练 数据 集 和 测试 数据 集 ， 不 再 袭 述 。 


代码 清单 5-3 引用 库 文件 


import matplotlib 
matplotlib.use('Agg') 


import matplotlib.pyplot as plt 


jmpor 
jmpor 


numpy as np 


Li 


import utils 


paddle.v2 as paddle 


占 


AAAT 


隐藏 层 激活 函数 换 为 ReLU 激 活 函 数 ， 同 时 修改 训 


接 下 来 的 步骤 仍 与 第 3 章 一 致 ， 载 入 数据 并 对 其 作 预 处 理 ， 定 义 三 个 全 局 变量 TRAINING SET、TEST_SET、DATA _DIM， 分 别 表示 最 终 的 训练 数据 集 、 测 试 数据 集 和 数据 特征 数 ， 不 再 歼 述 。 


2. 配 置 网 络 结构 


下 面 是 和 第 3 章 的 不 同 之 处 ， 这 里 增加 了 三 层 隐 藏 展 ， 分 别 设置 20、7、5 个 节点 ， 故 设置 size=20、7、25， 使 用 Relu 激 活 函 数 ， 输 出 层 使 用 Sigmoid 激 活 函 数 ， 如 代码 清单 -4 所 示 。 


代码 清单 5-4 配置 网 络 结 


构 


def network config() : 


搭建 浅 层 神经 网 络 和 配置 网 络 参数 


Args: 

Return: 
image: 输入 层 ，DATA DIM 维 稠密 向 量 
y predict: 输出 层 ，Sigmoigd 作 为 激活 函数 
y_label: 标签 数据 ，1 维 稠密 向 量 


# 输入 层 ，paddle.layer.data 表 示 数 据 层 ，name=' image' :名 称 为 image， 
# type=paddle.data type.dense vector (DATADIM) :数据 类 型 为 DATADIM 维 稠密 向 
imadge = paddle.layer.datal 

name='image', type=paddle.data type.dense Vector (DATA DIM)) 


地 


# 隐藏 层 1,padqdle .1layer .fc 表示 全 连接 层 ，input=image: 该 层 输入 数据 为 jmage 
# size=20: 神 经 元 个 数 ，act=paddle.activation.Tanh () :激活 函数 为 Relu () 
hil = paddle.layer.fc( 

input=ijmage, size=20, act=paddle.activation.Relu()) 


# 隐藏 层 2,paddle .layer .fc 表示 全 连接 层 ，input=hl: 该 层 输入 数据 为 hl 

# size=7: 神 经 元 个 数 ，act=paddle.activation.Tanh() :激活 函数 为 Relu () 

h2 = paddle.layer.fc( 
input=h1l, size=7, act=paddle.activation.Relu()) 


# 隐藏 层 3,paddle .layer .fc 表示 全 连接 层 ，input=h2: 该 层 输入 数据 为 h2 

# size=5: 人 神经 元 个 数 ，act=paddle.activation.Tanh() :激活 函数 为 Relu () 

h3 = paddle.1layer.fc( 
input=h2, size=5, act=paddle.activation.Relu()) 


# 输出 层 ，padqdle .layer .fc 表示 全 连接 层 ，input=h3: 该 层 输入 数据 为 h3 
# size=1 :神经 元 个 数 ，act=paddle.activation.Sigmoid() :激活 函数 为 Sigmoid() 
y predict = paddle.layer.fc( 

input=h3, size=1l, act=paddle.activation.Sigmoid()) 


# 数据 层 ，pagdqle .1layer.data 表 示 数 据 层 ，name='label' :名 称 为 label 

# type=paddle.data type.dense vector (1) :数据 类 型 为 1 维 稠密 向 量 

y label = paddle.layer.data( 
name='label', type=paddle.data type.dense vector (1)) 


# 损失 函数 ， 使 用 交叉 炳 损失 函数 


cost = paddle.layer.multi binary label cross entropy cost (input=y predict, label=y label) 


3. 模 型 训练 


训练 过 程 与 第 4 章 大 体 一 致 ， 修 改 训练 次 数 为 3 000， 如 代码 清单 5-5 所 示 。 


代码 清单 5-5 ”模型 训练 


# 构造 trainer 
trainer = paddle.trainer.SsSGD( 
Cost=cost, parameters=parameters, update equation=optimizer) 
# 模型 训练 
trainer.train( 
reader=paddle .batch ( 
paddle.reader.shuffle (train(), buf size=5000), 
batch size=256), 
feeding=feeding, 
event handler=event handler, 
num passes=3000) 


模型 训练 完毕 ， 每 100 次 输出 一 次 损失 函数 ， 观 察 变 化 ， 如 图 5-9 所 示 。 


Pass 0,Batch 0,Cost 0.689650 

Pass 100,Batch 0,Cost 0.560792 

Pass 200,Batch 0,Cost 0.500123 

Pass 300,Batch 0,Cost 0.446560 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17642/0EBPS/Text/..http://www.hzcourse.com/resource/readBook?path=/openresources/teach ek 
Pass 2700,Batch 0,Cost 0.002860 

Pass 2800,Batch 0,Cost 0.002762 

Pass 2900,Batch 0,Cost 0.002661 


有 


Es 


学 习 率 =0.000075 
0.7 


0.6 


U2 


0.4 


成 本 


0.3 


0.2 


0.1 


0.0 


0 > 10 ] > 20 25 30 
迭代 (每 百 次 迭代 为 一 个 单位 ) 
图 5-9 成 本 函数 变化 折线 图 
4. 模 型 检验 


下 面 计算 准确 率 ， 输 出 训练 集 和 测试 集 准确 率 如 下 所 示 ; 


train accuracy: 100.0% 
test accuracy: 80.0% 


在 深层 神经 网 络 更 为 复杂 的 结构 下 ， 相 比 于 使 用 PaddlePaddle， 单 纯 使 用 Python Numpy 库 实现 难度 更 高 ， 在 参数 初始 化 及 更 新 、 定 义 正 向 和 反 向 计算 等 步骤 时 ， 需 要 大 量 高 难度 的 编码 工作 。 而 使 
用 PaddlePaddle 框 架 仍 然 只 需 简单 地 配置 网 络 结构 及 trainer， 省 去 了 复杂 的 编码 过 程 ， 准 确 率 也 略 有 提高 。 此 外 ， 在 运行 速度 和 模型 调 优 方面 ，PaddlePaddle 框 架 也 有 明显 优势 。 


本 章 小 结 


本 章 是 对 前 面 两 章 内 容 的 总 结 ， 从 宏观 角度 整体 把 握 深 度 神 经 网 络 的 核心 原理 。 本 章 旨 在 帮助 读者 理解 神经 网 络 的 内 在 结构 和 算法 流程 ， 为 理解 后 面 各 种 场景 下 更 加 复杂 的 网 络 结构 打 好 基础 。 深 度 网 
络 比 浅 层 网 络 有 更 强 的 拟 合 能 力 ， 能 够 解决 更 加 复杂 的 问题 。 随 着 层 数 和 节点 数量 的 增多 ， 函 数 的 复杂 度 越 来 越 大 ， 最 终 函 数 的 刻画 粒度 也 越 来 越 细 。 


神经 网 络 的 算法 宏观 总 结 只 有 三 个 要 点 ， 依 次 是 : 前 向 传播 、 后 向 传播 和 梯度 下 降 。 前 向 传播 的 核心 目标 就 是 算出 预测 值 。 后 向 传播 同时 使 用 预测 值 与 真实 值 构建 成 本 函数 。 以 该 函数 为 起 点 逆向 沿 着 
计算 图 向 前 求 得 每 个 参数 (w，b) 的 偏 导 数 。 深 度 学 习 过 程 中 有 两 种 参数 ， 网 络 参 数 和 超 参数 。 超 参数 的 设置 是 有 一 定 技巧 性 的 ， 超 参数 的 设置 是 调 优 的 重要 手段 。 


从 开发 者 的 视角 来 看 ， 通 过 PaddlePaddle 配 置 深度 网 络 与 配置 浅 层 网 络 差异 不 大 。 但 事实 上 深层 网 络 的 结构 复杂 计算 量 大 ，PaddlePaddle 框 架 把 这 些 复杂 的 过 程 都 包装 起 来 ， 对 于 开发 者 来 说 是 透明 
的 。 开 发 者 仍旧 只 需 关 心 4 个 核心 步骤 : 数据 准备 与 预 处 理 、 配 置 网 络 、 训 练 和 测试 。 


本 章 参 考 代码 详 见 https://github.com/BaiduOSS/DeepLearningAndPaddleTutorial 下 lesson5 子 目录 。 


第 6 章 ” 卷 积 神经 网 络 


计算 机 视觉 是 深度 学 习 技术 应 用 和 发 展 的 重要 领域 ， 而 卷 积 神经 网 络 (Convolutional Neural Network，CNN) 作为 典型 的 深度 神经 网 络 在 图 像 和 视频 处 理 、 自 然 语 言 处 理 等 领域 发 挥 着 重要 的 作 


用 。 本 章 将 介绍 卷 积 神 经 网 络 的 基本 概念 和 组 成 ， 以 及 经 典 的 卷 积 神 经 网 络 架 构 。 此 外 ， 本 章 还 将 针对 计算 机 视觉 领域 的 经 典 问题 一 数字 识别 ， 结 合 具 体 案 例 和 代码 剖析 介绍 使 用 PaddlePaddle 平 台 措 建 
卷 积 神经 网 络 。 


学 习 本 章 ， 和 希望 读者 能 够 掌握 以 下 知识 点 : 
(1) 卷 积 神经 网 络 的 基本 组 成 和 相关 概念 。 
(2) 经 典 卷 积 神经 网 络 架 构 。 


(3) 使 用 PaddlePaddle 搭 建 简单 的 卷 积 神经 网 络 。 


6.1 图 像 分 类 问题 摘 述 


卷 积 神经 网 络 的 应 用 覆盖 各 大 领域 诸多 任务 ， 包 括 图 像 处 理 领 域 的 物体 检测 、 图 像 识 别 和 分 类 、 图 像 标注 等 ;视频 处 理 领 域 中 的 视频 分 类 、 目 标 追 踪 、 事 件 检测 等 ; 自然 语言 处 理 领 域 中 的 文本 分 类 、 


机 器 翻译 等 。 


其 中 ， 图 像 分 类 是 计算 机 视觉 研究 领域 中 的 经 典 问题 。 图 像 分 类 是 我 们 日 常生 活 中 普遍 存在 的 一 类 视 党 处 理 任务 。 例 如 ， 当 我 们 在 街 上 行走 ， 我 们 需要 区 分 眼前 看 到 的 是 机 动车 、 自 行车 还 是 行人 ; 再 
比如 说 ， 当 我 们 看 到 一 只 动物 ， 我 们 要 判断 它 是 一 只 猫 、 一 条 狗 或 是 其 他 的 动物 种 类 。 除 此 之 外 ， 图 像 分 类 的 重要 性 还 体现 在 它 是 其 他 一 些 高 层 视觉 任务 (如 图 像 检测 、 图 像 分 割 、 物 体 跟 踪 、 行 为 分 析 
等 ) 的 基础 。 本 章 实验 部 分 探讨 的 手写 数字 识别 任务 也 是 一 类 典型 的 图 像 分 类 问题 。 目 前 ， 图 像 分 类 已 经 广泛 应 用 到 了 各 个 领域 ， 包 括 安防 领域 的 人 脸 识别 和 智能 视频 分 析 、 交 通 领 域 的 交通 场景 识别 、 互 
联网 领域 基于 内 容 的 图 像 检 索 和 相册 自动 归 类 及 医学 领域 的 病理 图 像 识别 等 。 


传统 的 图 像 分 类 方法 一 般 首先 通过 手工 提取 方式 或 特征 学 习 方 法 构建 图 像 特征 ， 然 后 采用 特定 的 分 类 器 实现 图 像 类 别 的 判定 。 因 此 ， 如 何 提取 图 像 的 特征 对 于 图 像 分 类 方法 的 性 能 至 天 重要 。 在 传统 方 
法 中 使 用 较 多 的 是 基于 词 袋 (Bag of Words) 模型 的 图 像 分 类 方法 。 词 袋 方法 借鉴 自 文 本 处 理 ， 即 一 篇 文本 文档 可 以 用 一 个 装 了 词 的 袋子 进行 表示 ， 袋 子 中 的 词 为 文档 中 的 单词 、 短 语 或 字 。 对 于 图 像 而 
， 应 用 词 袋 方法 一 般 需要 构建 字典 。 最 简单 的 词 袋 分 类 模型 框架 包括 视 沉 特征 抽取 、 特 征 编码 和 分 类 器 设计 三 个 模块 。 


ll} 


基于 深度 学 习 的 图 像 分 类 方法 ， 可 以 通过 有 监督 或 无 监督 的 方式 学 习 层 次 化 的 特征 描述 ， 从 而 取代 手工 设计 或 选择 图 像 特 征 的 工作 。 深 度 学 习 模 型 中 的 卷 积 神经 网 络 在 图 像 分 类 中 发 挥 了 重要 的 作用 ， 
近年 来 在 图 像 领 域 取得 了 惊人 的 成 绩 。CNN 直 接 利 用 图 像 像素 信息 作为 输入 ， 最 大 程度 上 保留 了 输入 图 像 的 所 有 信息 ， 通 过 卷 积 操作 进行 特征 的 提取 和 高 层 抽象 ， 模 型 输出 直接 是 图 像 识别 的 结果 。 这 种 基 
于 “输入 -输出 ”的 端 到 端的 学 习 方 法 通常 可 以 获得 非常 理想 的 效果 ， 在 学 术 界 和 工业 界 得 到 了 广泛 的 关注 。 


6.2 ”者 积 伸 经 网 络 介绍 


在 结构 上 ， 卷 积 神经 网 络 一 般 由 一 个 或 多 个 卷 积 层 、 池 化 层 以 及 全 连接 层 组 成 ， 本 节 主 要 介绍 卷 积 层 、 池 化 层 、 分 类 层 的 作用 和 特点 。 在 读者 对 卷 积 神经 网 络 的 组 成 以 及 其 中 的 基本 概念 有 一 定 了 解 
后 ， 我 们 将 继续 介绍 一 些 经 典 的 网 络 架构 以 帮助 大 家 更 深入 地 理解 卷 积 神经 网 络 的 设计 和 组 成 。 


6.2.1 “ 卷 积 层 


本 小 节 主 要 介绍 卷 积 层 的 相关 知识 点 : 首先 概要 性 地 介绍 卷 积 层 和 滤波 器 ， 接 着 结合 具体 的 例子 进一步 解释 二 维 卷 积 操作 和 三 维 卷 积 操作 ， 然 后 介绍 卷 积 层 的 主要 超 参数 ， 最 后 说 明 卷 积 层 的 两 个 主要 


特点 一 一 参数 共享 和 局 部 连接 。 


1. 概 述 介绍 


首先 介绍 卷 积 层 的 工作 原理 。 卷 积 层 的 基本 作用 是 执行 卷 积 操作 提取 底层 到 高 层 的 特征 ， 同 时 发 掘 出 输入 数据 (图 片 ) 的 局 部 关联 性 质 和 空间 不 变性 质 。 卷 积 层 由 一 系列 参数 可 学 习 的 滤波 器 集合 构 
成 。 在 尺寸 上 ， 每 个 滤波 器 的 宽度 和 高 度 都 比较 小 ， 但 通道 数 (也 称 深度 ) 和 输入 数据 相同 。 对 于 卷 积 神经 网 络 第 一 层 而 言 ， 一 个 典型 的 滤波 器 的 尺寸 是 5x5x3 (宽度 和 高 度 都 是 5 像素， 通道 数 是 3， 这 是 
因为 输入 的 彩色 图 像 通常 具有 3 个 颜色 通道 ) 。 在 正 向 传播 的 时 候 ， 每 个 滤波 器 都 会 在 输入 数据 的 宽度 和 高 度 上 按 一 定 间隔 进行 滑动 〈 即 卷 积 操作 ) ， 滑 动 至 某 处 便 计 算 整 个 滤波 器 和 它 当 前 所 覆盖 的 输入 数 
据 区 域 的 内 积 。 当 滤波 器 滑 过 整 张 图 片 后 ， 会 生成 一 个 二 维 的 特征 图 (Feature Map) ， 特 征 图 显示 了 滤波 器 在 图 像 每 个 空间 位 置 处 的 响应 。 在 一 个 训练 好 的 网 络 中 ， 滤 波 器 每 当 “ 看 到 ” 它 期 望 类 型 的 视 
党 特征 时 就 会 被 激活 ， 具 体 的 视觉 特征 可 能 是 低层 网 络 中 的 边界 或 者 颜色 斑点 ， 也 可 能 是 更 高 层 网 络 中 类 似 蜂 梨 状 、 车 轮 状 等 的 图 案 。 


每 个 卷 积 层 上 都 会 有 一 组 滤波 器 ， 每 个 滤波 器 都 会 生成 一 个 对 应 的 二 维特 征 图 ， 将 这 些 特 征 图 在 不 同 通道 上 层 赤 起 来 就 得 到 了 输出 数据 体 。 
下 面 我 们 将 结合 具体 的 例子 分 别 对 二 维和 三 维 卷 积 操作 进行 说 明 ， 以 使 读者 对 卷 积 操作 有 更 直观 的 理解 。 


上 述 内 容 从 卷 积 操作 的 直观 解释 出 发 ， 给 出 了 卷 积 层 的 基本 定义 ; 除 此 之 外 ， 深 度 学 习 领 域 也 常常 使 用 大 脑 和 生物 神经 元 来 比喻 解释 其 结构 和 原理 。 举 例 来 说 ， 卷 积 层 生成 的 单 张 二 维特 征 图 中 的 每 个 
数据 项 都 可 以 被 看 作 是 某 个 神经 元 的 输出 ， 而 该 神经 元 只 观察 输入 数据 中 的 一 小 部 分 ， 并 且 和 周围 的 所 有 神经 元 共享 参数 ( 单 张 二 维特 征 图 中 的 每 个 数字 都 是 使 用 同一 个 滤波 器 得 到 的 结果 ) 。 在 本 章 的 后 
续 内 容 中 ， 为 更 形象 地 介绍 卷 积 神经 网 络 ， 也 会 基于 神经 元 这 一 术语 对 一 些 概念 进行 前 述 。 

2. 滤 波 器 

滤波 器 (Filter) 即 一 组 固定 的 权重 ， 如 图 6-1 所 示 ， 和 矩阵 框 中 的 数值 即 为 权重 数值 。 如 果 深度 方向 上 属于 同一 层次 的 所 有 神经 元 都 使 用 同一 个 权重 向 量 ， 那 么 卷 积 层 的 正 向 传播 相当 于 是 在 计算 神经 元 
权重 和 输入 数据 体 的 卷 积 ， 这 就 是 “ 卷 积 层 ” 名 字 的 由 来 ， 也 是 将 这 些 权重 集合 称 为 滤波 器 或 卷 积 核 (Kernel) 的 原因 。 


滤波 器 的 通道 数 应 与 输入 数据 体 的 通道 数 保持 一 致 。 对 照 图 6-1 中 所 示 滤 波 器 的 两 种 基本 形式 ， 举 例 来 说 ， 当 输入 是 一 张大 小 为 32x32 的 灰 度 图 像 时 ， 对 应 的 滤波 器 可 以 采用 图 6-1a 所 示 的 二 维 形式 ; 
而 当 输 入 是 一 张大 小 为 32x32x3 的 彩色 图 像 时 (其 中 3 表示 颜色 通道 数 ) ， 必 须 采 用 通道 数 同样 为 3 的 滤波 器 ， 例 如 可 以 采用 图 6-1b 所 示 形 式 。 


在 很 大 程度 上 ， 构建 卷 积 神经 网 络 的 任务 就 在 于 构建 这 些 滤波 器 : 通过 改变 这 些 滤波 器 的 权重 值 ， 使 得 这 些 滤波 器 对 特定 的 特征 有 高 的 激活 值 ， 从 而 识别 特定 的 特征 ， 以 达到 CNN 网 络 分 类 、 检 测 等 目 
的 。 


3X 3 3X3xX 3 
a) 二 维 滤波 器 b) 三 维 滤波 器 


图 6-1 滤波 器 


在 卷 积 神经 网 络 中 ， 从 前 往 后 不 同 卷 积 层 所 提取 的 特征 会 逐渐 复杂 化 。 一 般 来 说 ， 卷 积 神经 网 络 的 第 一 个 卷 积 层 的 滤波 器 检测 到 的 是 低 阶 特征 ， 比 如 边 、 角 、 曲 线 等 。 第 二 个 卷 积 层 的 输入 实际 上 是 第 
一 层 的 输出 ， 即 滤波 器 特征 图 。 这 一 层 的 滤波 器 往往 被 用 来 检测 低 价 特征 的 组 合 情 况 ， 如 半圆 、 四 边 形 等 。 如 此 累积 递 进 ， 能 够 检测 到 更 复杂 、 更 抽象 的 特征 。 实 际 上 ， 这 与 人 类 大 脑 处 理 视觉 信息 时 所 遵 
循 的 从 低 阶 特征 到 高 阶 特征 的 模式 是 一 致 的 。 


(1) 二 维 卷 积 操作 


结合 前 面 知识 点 的 内 容 ， 这 里 我 们 通过 给 出 一 个 图 6-2 所 示 的 例子 ， 来 进一步 解释 卷 积 的 具体 过 程 。 


输入 数据 体 滤波 项 输出 数据 体 


图 6-2 ”二 维 卷 积 操作 


图 6-2 中 左 侧 是 一 个 大 小 为 5x 5 二 维 输入 数据 体 (例如 一 张 灰 度 图 像 ) ; 对 应 地 ， 我 们 选择 的 是 一 个 大 小 为 3x 3 的 二 维 滤波 器 ; 两 者 间 的 “*” 号 表示 卷 积 操作 ;而 最 终 的 输出 数据 体 将 是 一 个 3x3 的 矩 
阵 。 下 面 将 前 述 具体 的 计算 过 程 。 


并 累加 (每 次 操作 包含 9 个 元 素 对 ) 。 其 计算 过 程 ( 按 行 ) 为 : 


10x1+10X0+10x (-1) +10X1+10X0+10x (-1) +10X1+10X0+10X (-1) =0 


接 下 来 ,为 了 计算 得 到 输出 数据 体 中 的 第 二 个 元 素 (绿色 区 域 对 应 的 元 素 ) ， 我 们 将 覆盖 在 输入 数据 体 上 的 滤波 器 向 右 平 移 一 格 ， 即 移动 至 与 绿色 边框 对 应 的 区 域 ， 然 后 执行 相同 的 逐 元 素 乘法 累加 操 
作 ， 得 到 第 二 个 元 素 30， 同 理 可 以 得 到 第 三 个 元 素 为 30。 而 对 于 输出 数据 体 中 的 第 四 个 元 素 ( 蓝 色 区 域 对 应 的 元 素 ) ， 我 们 可 以 通过 将 滤波 器 从 黄色 边框 位 置 向 下 移动 一 格 至 蓝 色 边框 位 置 ， 接 着 用 同样 的 


方法 计算 得 到 其 数值 为 0。 以 此 类 推 ， 我 们 可 以 得 到 输出 数据 体 中 的 所 有 位 置 的 值 。 
(2) 三 维 卷 积 操作 


当 输入 数据 体 是 三 维 时 ， 我 们 需要 进行 三 维 卷 积 操作 。 三 维 卷 积 和 二 维 卷 积 的 区 别 在 于 ， 输 入 数据 体 和 滤波 器 的 通道 数 不 为 1 (但 两 者 的 通道 数 始终 一 致 ) 。 如 图 6-3 所 示 ， 左 侧 的 输入 数据 体 尺 寸 为 


5x5x3 (例如 一 张 3 通 道 的 彩色 图 像 ) ， 滤 波 器 的 尺寸 为 3x3x3， 而 输出 数据 体 尺 斗 与 二 维 卷 积 操作 中 的 例子 一 样 ， 依 然 是 3x3。 下 面 将 前 述 具体 的 计算 过 程 。 


输入 数据 体 涯 波 症 输出 数据 体 


图 6-3 三维 卷 积 操 作 


与 二 维 卷 积 操作 一 致 ， 对 拥有 3 个 通道 的 输入 数据 体 和 滤波 器 进行 三 维 卷 积 操作 时 ， 同 样 是 把 滤波 器 履 盖 在 输入 数据 体 的 特定 位 置 ， 然 后 执行 逐 元 素 乘 法 并 求 和 ， 从 而 得 到 最 终 的 输出 数据 体 。 与 图 6-2 
中 所 示 二 维 卷 积 操作 的 不 同 之 处 在 于 此 处 的 三 维 卷 积 操作 有 27 个 元 素 对 ， 而 二 维 卷 积 操作 只 有 9 个 元 素 对 。 


(3) 超 参数 
超 参数 如 下 : 


` 通道 (Channel) : 输出 数据 体 的 通道 数量 (也 称 深度 ，Depth) 是 一 个 超 参 数 ， 即 所 使 用 的 滤波 器 的 数量 。 前 面 提 到 当 滤 波 器 “看 到 ”输入 数据 中 期 望 的 特征 时 会 被 激活 ， 而 每 个 滤波 器 所 期 望 的 特 
征 是 不 同 的 。 举 例 来 说 ， 对 于 第 一 个 卷 积 层 中 的 滤波 器 ， 输 入 的 是 原始 图 像 ， 那 么 在 深度 维度 上 的 不 同 滤波 器 将 可 能 被 不 同方 向 的 边界 或 者 是 颜色 斑点 激活 。 


` 步 长 (Stride) : 在 滑动 滤波 器 的 时 候 ， 平移 的 距离 称 为 步 长 。 当 步 长 为 k 时 ， 滤 波 器 每 次 平移 k 个 像素 (常用 的 步 长 为 1 或 者 2) 。 设 置 步 长 滑动 滤波 器 会 使 输出 数据 体 在 空间 尺寸 上 变 小 ， 步 长 越 大 ， 
输出 数据 体 的 尺寸 越 小 。 


` 填充 (Padding) : 在 输入 数据 体 边 缘 处 填补 特定 元 素 的 做 法 称 为 填充 。 其 中 最 常用 的 是 使 用 0 元 素 进行 填充 ， 即 零 填 充 。 填 充 的 尺寸 〈 即 元 素 的 数量 ) 是 一 个 超 参 数 。 填 充 有 一 个 良好 性 质 ， 即 可 以 控 
制 输出 数据 体 的 空间 尺寸 (常用 于 控制 输出 数据 体 的 空间 尺寸 和 输入 数据 体 的 相同 ， 以 保留 尽 可 能 多 的 原始 输入 信息 ) 。 


输出 数据 体 在 空间 上 的 尺寸 可 以 通过 输入 数据 体 尺 寸 W， 卷 积 层 中 滤波 器 尺寸 F， 步 长 3 和 零 填充 的 数量 P 的 函数 来 计算 。 这 里 假设 输入 数据 的 高 度 和 宽度 相等 ， 则 输出 数据 体 的 宽度 和 高 度 为 〈W- 
F+2P) /S+1。 如 图 6-4 所 示例 子 ， 输 入 数据 体 尺 寸 为 7x7， 渡 波 器 尺寸 为 3x3， 当 步 长 为 1 且 不 进行 零 填充 时 ， (5-3+2x0) /1+1=3， 得 到 一 个 3x3 的 输出 数据 体 ; 如 果 步 长 为 2， 零 填充 尺寸 为 1， (5- 
3+2x1) /2+1=3， 得 到 的 也 是 一 个 3x3 的 输出 。 


需要 注意 的 是 ， 在 网 络 的 设计 中 上 述 这 些 空间 排列 的 超 参数 之 间 是 相互 限制 的 。 例 如 当 其 他 超 参数 固定 时 ， 一 般 需 要 选择 合适 的 步 长 和 零 填充 数量 来 保证 输出 数据 体 的 尺寸 为 整数 ; 当 公式 (W- 
F+2P) /S+1 的 计算 结果 不 为 整数 时 ， 通 常 采用 向 下 取 整 的 方式 来 使 得 输出 数据 体 的 尺寸 为 整数 。 另 一 方面 ， 常 常 需 要 保证 输入 和 输出 数据 体 具有 相同 的 高 度 和 宽度 。 为 此 ， 当 步 长 S=1 时 ， 对 应 零 填充 的 
值 是 P= (F-1) /2。 
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图 6-4 ”输出 数据 体 尺寸 计算 


真实 案例 


AlexNet 构 架 赢 得 了 2012 年 的 ImageNet 大 赛 ， 其 输入 图 像 的 尺寸 是 227X227X3。 在 第 一 个 卷 积 层 ， 滤 波 器 尺寸 为 F=11， 滤 波 器 数量 为 K=96， 步 长 S=4， 不 使 用 零 填 充 P=0。 (227-11) /4+1=55， 故 卷 积 
层 的 输出 数据 体 尺寸 为 55X55X96。 有 趣 的 是 ， 原 论文 中 提 到 ， 输 入 图 像 的 尺寸 是 224X224， 但 是 (224-11) /4+1=54.5 不 是 整数 。 这 个 “错误 ”的 由 来 在 卷 积 神经 网 络 的 历史 上 引发 了 诸多 猜想 。 一 种 猜测 
是 作者 Alex 忘 记 在 论文 中 指出 自己 使 用 了 尺寸 为 3 的 零 填 充 。 


6.2.2 ”ReLU 溅 活 函 数 

激活 函数 作为 神经 网 络 的 重要 组 成 ， 常 用 于 加 入 非 线性 因素 ， 以 弥补 线性 模型 表达 能 力 不 足 的 缺点 。AlexNet 网 络 架构 提出 使 用 ReLU (The Rectified Linear Unit) 非 线 性 激活 函数 来 代 蔡 传 统 的 激活 
函数 ， 这 可 谓 深 度 学 习 领 域 的 一 大 进步 。 ReLU 已 成 为 当前 深度 学 习 领 域 最 常用 的 激活 函数 。ReLU 的 表达 式 为 f (x) =max (0，x) ， 其 图 形 如 图 6-5 所 示 。 

相 比 传统 的 sgmoid 和 Tanh 激 活 函 数 ，ReLU 激 活 函 数 的 优点 主要 有 : 


` 梯度 不 饱和 。Sigmoid 激 活 函 数 的 导数 只 有 在 0 附近 的 区 域 有 比较 好 的 激活 性 ， 在 正 负 饱 和 区 的 梯度 都 接近 于 0， 因 此 会 造成 梯度 弥散 的 问题 。 而 ReLU 激 活 函 数 的 梯度 计算 公式 为 1{x&>0}， 即 大 于 0 的 部 
分 梯度 为 常数 ， 所 以 不 会 产生 梯度 弥散 现象 。 因 此 在 反 向 传播 过 程 中 ， 神 经 网 络 前 几 层 的 参数 也 可 以 很 快 得 到 更 新 。 


ReLU(x) dReLU(x)dx 
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图 6-5” ReLU 激 活 函 数 
: 稀 鸣 激活 性 。ReLU 哆 数 在 负 半 区 的 导数 值 为 0。 一 旦 神经 元 激活 值 进 入 负 半 区 ,那么 其 梯度 就 会 为 0， 因 此 这 个 神经 元 不 会 经 历 训 练 ， 即 具有 所 谓 的 稀 玖 激活 性 。 


“ 计算 速度 快 。 正 向 传播 过 程 中 ，Sigmoid 和 Tanh 涵 数 计算 激活 值 时 需要 计算 指数 ， 而 ReLU 部 数 仅 需要 根据 阅 值 进行 判断 。 如 果 x 二 0， 则 f(x) =0; 如 果 x>0， 则 f (x) =x。 如 此 可 以 大 幅 加 快 正 向 传播 


的 计算 速度 。 因 此 ，ReLU 激 活 函 数 可 以 极 大 地 加 快 收敛 速度 。 


6.2.3 池 化 层 


一 般 情况 下 ， 在 连续 的 卷 积 层 之 间 会 周期 性 地 插入 一 个 池 化 层 (也 称 汇聚 层 ) ， 其 处 理 输入 数据 的 准则 被 称 为 池 化 函数 。 池 化 函数 在 计算 某 一 位 置 的 输出 时 ， 会 计算 该 位 置 相 邻 区 域 输出 的 某 种 总 体 统 
计 特 征 ， 作 为 网 络 在 该 位 置 的 输出 。 池 化 层 的 作用 是 逐渐 降低 数据 体 的 空间 尺寸 ， 从 而 减少 网 络 中 参数 的 数量 以 及 耗费 的 计算 资源 ， 同 时 也 能 有 效 控制 过 拟 合 。 


池 化 操作 对 输入 数据 体 的 每 一 个 深度 切片 独立 进行 操作 ， 改 变 它 的 宽度 和 高 度 尺 寸 。 以 最 大 池 化 (Max Pooling) 为 例 ， 池 化 层 使 用 最 大 化 (Max) 操作 ， 即 用 一 定 区 域内 输入 的 最 大 值 作为 该 区 域 的 
输出 。 最 大 池 化 最 常用 的 形式 是 使 用 尺寸 为 2x 2 的 滤波 器 、 步 长 为 2 来 对 每 个 深度 切片 进行 降 采 样 ， 每 个 Max 操 作 是 从 4 个 数字 中 取 最 大 值 (也 就 是 在 深度 切片 中 某 个 2x2 的 区 域 ) ， 这 样 可 以 将 其 中 75% 的 
激活 信息 过 滤 掉 ， 而 保持 数据 体 通 道 数 不 变 。 

普通 池 化 (General Pooling) : 除了 最 大 池 化 ， 池 化 层 还 可 以 使 用 其 他 函数 ， 如 平均 池 化 (Average/Mean Pooling) 和 L-2 范 数 池 化 (L2-norm Pooling) 。 平 均 池 化 在 历史 上 比较 常用 ， 但 如 今 
很 少 使 用 了 。 主 要 原因 是 在 实践 中 发 现 ， 最 大 池 化 的 效果 比 平均 池 化 要 好 。 此 外 ， 在 池 化 层 很 少 使 用 填充 。 


如 图 6-6 所 示 ， 左 侧 输入 数据 体 尺寸 为 224x224x 64， 采 用 的 池 化 滤波 器 尺寸 为 2， 步 长 为 2， 经 过 池 化 操作 被 降 采样 到 了 112x112x 64， 通 道 数 不 变 。 右 侧 图 中 ， 采 用 的 是 滤波 器 尺 十 为 2、 步 长 为 2 的 
最 大 池 化 操作 ， 即 无 重 夺 地 从 相 邻 4 个 数字 中 选取 最 大 值 作为 输出 。 
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图 6-6” 池 化 操作 


6.2.4 ” Softmax 分 类 层 


1. 概 念 引入 


卷 积 神经 网 络 分 类 模型 的 最 终 目 标 是 完成 对 输入 数据 的 分 类 ， 输 入 数据 在 经 过 前 面 介绍 的 一 系列 卷 积 、 池 化 层 的 处 理 后 ， 将 交 由 分 类 层 进行 最 终 的 分 类 。 在 卷 积 神经 网 络 的 结构 设计 中 ，Softmax 分 类 
层 因 为 计算 简单 、 效 果 显著 的 特点 而 得 到 了 广泛 的 应 用 。 下 面 首先 来 简单 描述 一 下 Softmax 的 数学 合 义 。 


已 知 两 个 实数 a 和 b， 若 a > b， 则 max (a，b) =a。 但 是 在 实际 的 分 类 应 用 中 ， 我 们 希望 分 类 得 分 值 更 大 的 类 别 有 更 大 概率 被 取 到 (因为 一 般 情 况 下 ， 分 类 得 分 值 越 大 表示 属于 对 应 类 别 的 可 能 性 越 
大 ) ， 分 类 得 分 值 小 的 类 别 有 小 概率 可 以 取 到 ， 选 择 两 个 类 别 的 概率 大 小 与 它们 的 分 类 得 分 值 大 小 正 相关 ， 这 就 是 yoftmax 的 直观 数学 含义 。 两 个 分 类 得 分 值 对 应 概率 的 计算 公式 将 在 下 节 给 出 。 


2.Softmax 函 数 定义 


softmax 国 数 用 于 多 分 类 过 程 中 ， 它 可 以 看 作 是 逻辑 回归 二 元 分 类 器 在 多 分 类 场景 中 的 泛 化 。 它 将 神经 元 计算 输出 的 得 分 值 映射 到 频率 域 ， 即 (0，1) 区 间 中 ， 从 而 实现 对 输入 数据 的 多 分 


通过 上 式 可 以 保证 数据 样本 属于 各 个 类 别 的 概率 和 为 1， 二 1 二 1， 其 中 C 表 示 类 别 数 目 。 


Softmax 消 数 的 计算 过 程 如 图 6-7 所 示 。 


图 6-7 Softmax 计 算 过 程 示 意图 


3.Softmax 分 类 层 的 损失 函数 
Softmax 分 类 器 常 使 用 交叉 粹 作为 其 损失 遂 数 。 对 于 一 个 输入 样本 i 而 言 ， 其 数学 表达 式 如 下 : 

Cc © SI 
crossentropy (label,S, )=— > label log S 
i=| 2 


i€ 


从 上 式 来 看 ， 样 本 正确 类 别 的 Softmax 数 值 越 大 ( 即 样本 被 分 为 正确 类 别 的 概率 值 越 大 ) ， 其 损失 函数 数值 越 小 ， 符 合 损失 函数 的 设计 要 求 。 训 练 集 总 体 的 损失 是 遍历 训练 集 所 有 样本 之 后 的 均值 。 


6.2.5 ”主要 特点 


卷 积 神经 网 络 相 比 于 全 连接 网 络 主要 有 两 个 优势 : 参数 共享 和 局 部 连接 。 


参数 共享 一 般 是 指 一 个 模型 的 多 个 函数 均 使 用 相同 的 参数 。 在 传统 的 神经 网 络 中 ， 在 计算 当前 层 的 输出 时 ， 权 重 和 矩阵 中 的 每 个 元 素 只 会 使 用 一 次 。 而 在 卷 积 神经 网 络 中 ， 滤 波 器 中 的 元 素 会 重复 作用 于 
它 在 滑动 过 程 中 所 履 盖 的 输入 数据 的 每 个 位 置 。 这 样 的 卷 积 运算 使 得 对 所 有 的 位 置 只 需要 学 习 一 个 共同 的 参数 集合 ， 而 不 是 对 于 每 一 位 置 都 需要 学 习 一 个 单独 的 参数 集合 ， 这 即 所 谓 的 参数 共享 。 


在 卷 积 层 中 使 用 参数 共享 可 以 显著 降低 参数 的 数量 。 沿 用 前 面 提 到 的 “真实 案例 ”， 在 第 一 个 卷 积 层 就 有 55x55x96=290 400 个 神经 元 。 这 里 引入 深度 切片 (Depth Slice) 的 概念 ， 即 数据 体 在 深度 
维度 上 一 个 单独 的 二 维 切 片 ， 比 如 上 述 55x 55x 96 的 数据 体 就 有 96 个 深度 切片 ， 每 个 深度 切片 尺寸 为 55x55。 如 果 不 使 用 参数 共享 ， 则 每 个 神经 元 都 需要 学 习 11x11x3=363 个 参数 和 1 个 偏差 .合计 
290400x (363+1) =105 705 600 个 参数 。 仅 第 一 层 就 需要 学 习 数 目 如 此 庞大 的 参数 。 若 使 用 参数 共享 ， 则 每 个 深度 切片 中 的 所 有 (55x55=3025 个 ) 神经 元 都 使 用 相同 的 参数 ， 即 每 个 神经 元 都 和 输入 数 
据 体 中 一 个 尺寸 为 11x11x3 的 区 域 全 连接 ， 因 此 只 需要 学 习 96x (363+1) =34 944 个 参数 。 


参数 共享 的 直观 意义 : 如 果 一 个 特征 在 计算 某 个 空间 位 置 的 时 候 有 用 ， 那 么 它 在 计算 另 一 个 不 同位 置 的 时 候 也 有 用 。 具 体 来 说 ， 假 如 图 像 的 轮廓 特征 对 于 目标 任务 很 重要 ， 而 我 们 针对 特定 局 部 区 域 训 | 
练 得 到 了 一 个 可 以 提取 局 部 轮廓 特征 的 神经 元 ， 那 么 这 个 神经 元 同样 可 以 作用 于 其 他 局 部 区 域 得 到 对 应 的 局 部 轮廓 特征 ， 这 是 因为 图 像 结构 具有 平移 不 变性 。 


2. 局 部 连接 


局 部 连接 (又 称 稀 跑 连 接 ) 。 在 处 理 图 像 这 样 的 高 维度 输入 时 ， 让 每 个 神经 元 都 连接 前 一 层 中 的 所 有 输出 是 不 现实 的 ， 可 以 让 每 个 神经 元 只 连接 输入 数据 的 一 个 局 部 区 域 ， 即 每 个 位 置 的 输出 仅 依 赖 于 
输入 数据 的 一 个 特定 区 域 。 所 连接 区 域 的 大 小 称 为 神经 元 的 感受 野 (Receptive Field) ， 它 的 尺寸 〈 即 滤波 器 的 空间 尺寸 ) 是 一 个 超 参 数 。 需 要 再 次 强调 的 是 ， 局 部 连接 针对 的 是 由 宽度 和 高 度 构 成 的 空间 
维度 ， 而 在 通道 数目 上 单个 神经 元 的 尺寸 总 是 和 输入 数据 的 通道 数 相同 ， 即 与 输入 数据 体 的 所 有 深度 维度 相连 。 与 参数 共享 一 样 ， 在 卷 积 层 中 使 用 局 部 连接 可 以 显著 降低 参数 的 数量 。 


图 6-8 Alex Krizhevsky 等 人 学 习 到 的 滤波 器 例子 


6.2.6 ”经典 伸 经 网 络 织 构 
前 面 我 们 介绍 了 卷 积 神经 网 络 的 基本 组 成 和 常见 概念 。 在 本 小 节 中 ， 将 按照 时 间 线 介绍 几 种 经 典 的 卷 积 神经 网 络 架构 。 读 者 在 了 解 卷 积 神经 网 络 帮 展 历史 的 同时 ， 也 可 以 深化 对 卷 积 神经 网 络 组 成 的 认 
识 
1.LeNet5 
诞生 于 1994 年 的 LeNet5 是 最 早 的 卷 积 神经 网 络 之 一 ， 并 且 推 动 了 深度 学 习 的 发 展 。LeNet5 由 被 誉 为 “ 卷 积 神经 网 络 之 父 ” 的 Yann LeCun 提 出 ， 其 中 5 代表 五 层 模 型 ， 其 网 络 结构 如 图 6-9 所 示 。 


LeNet5 认 为 图 像 具有 很 强 的 空间 相关 性 ， 每 个 像素 用 作 一 个 大 型 多 层 神 经 网 络 的 单独 输入 ， 即 ， 使 用 图 像 中 独立 的 像素 作为 不 同 的 输入 特征 的 做 法 利用 不 到 这 些 相关 性 。LeNet5 的 设计 者 认为 图 像 的 
特征 分 布 在 整 张 图 像 上 ; 相应 的 ， 带 有 可 学 习 参 数 的 卷 积 操作 是 一 种 用 少量 参数 在 多 个 位 置 上 提取 相似 特征 的 有 效 方式 。LeNet5 利 用 卷 积 操作 只 需要 少量 参数 就 可 以 建立 模型 并 获得 很 好 的 实验 效果 ， 这 一 
点 在 计算 资源 极其 匮乏 的 当时 ， 是 一 个 重大 的 突破 。 


2 
了 3 和 人 中 gn 亲本 
特征 图 16@10x10 16@5x 4 


输入 OO RG S2: 特征 图 | .TF 


3 人 F6: 层 


6@14 x 14 


卷 积 下 采样 A 下 采样 
图 6-9 LeNet5 
LeNet5 网 络 的 特点 能 够 总 结 为 如 下 几 点 : 
" 卷 积 神 经 网 络 使 用 3 个 层 作 为 一 个 序列 : 卷 积 、 池 化 、 非 线性 。 
` 使 用 卷 积 提取 空间 特征 。 
“ 使 用 映射 到 空间 均值 下 采样 (Subsample) 。 
. 使 用 双 曲 正切 (Tanh) 或 5 型 (Sigmoid) 形式 的 非 线 性 。 
. 使 用 多 层 神经 网 络 (MLP) 作为 最 后 的 分 类 器 。 
. 层 与 层 之 间 的 稀 路 连接 人 算 阵 避 免 了 高 额 的 计算 成 本 。 
LeNet5 的 诞生 标志 着 CNN 的 真正 问世 。LeNet5 可 以 说 是 近年 来 大 量 网 络 架构 的 起 源 ， 为 现代 深度 学 习 领 域 的 帮 展 做 了 重要 铺垫 。 
2.AlexNet 


Alexet 是 以 其 作者 Alex Krizhevsky 命 名 的 网 络 架构 。AlexNet 发 表 于 2012 年 ， 它 是 LeNet 的 一 种 更 深 更 宽 的 版 本 ， 并 以 显著 优势 赢得 了 颇具 挑战 性 的 2012 年 ImageNet 大 赛 。AlexNet 网 络 结构 设计 如 
图 6-10 所 示 。 


AlexNet 将 LeNet5 的 思想 扩展 到 了 能 学 习 到 更 复杂 特征 的 神经 网 络 上 。 它 的 主要 贡献 有 : 


. 使 用 修正 的 线性 单元 (ReLU) 作为 非 线 性 激活 函数 。 


XA 


2048 


最 大 池 人 


图 6-10 AlexNet 
. 在 训练 的 时 候 使 用 Drtopout 技 术 按照 一 定 概率 随机 丢弃 单个 神经 元 ， 以 避免 模型 过 拟 合 。 
` 使 用 效果 更 好 的 有 重合 的 最 大 池 化 代替 或 避免 平均 池 化 。 
` 使 用 数据 增强 的 方式 增加 训练 样本 。 
. 设计 了 LRN (Local Response Normalization) 层 ， 利 用 邻近 的 数据 做 归 一 化 。 
. 使 用 多 GPU 并 行 计 算 ， 大 幅度 减少 了 训练 时 间 ， 反 过 来 允许 使 用 更 大 的 数据 集 和 更 大 的 图 像 进 行 训 练 。 


AlexNet 证 明了 CNN 在 复杂 模型 下 的 有 效 性 ， 并 利用 GPU 使 得 训练 能 够 在 可 接受 的 时 间 范 围 内 得 到 结果 。AlexNet 的 成 功 掀起 了 一 场 卷 积 神经 网 络 的 研究 热潮 ， 极 大 地 促进 了 卷 积 神经 网 络 的 研究 和 发 
展 。 


3.VGG 


作为 2014 年 Image Net 大 赛 的 亚军 ,来自 牛津 大 学 的 VGG (Visual Geometry Group， 和 牛津 大 学 计算 机 视觉 组 ) 网 络 很 好 地 继承 了 AlexNet 的 衣钵 ， 意 在 使 用 更 深 的 网 络 来 获取 更 好 的 训练 效果 。VGG 
网 络 是 第 一 个 在 各 个 卷 积 层 使 用 更 小 的 3x 3 滤波 器 ， 并 把 它们 组 合作 为 一 个 卷 积 序列 进行 处 理 的 网 络 ， 其 结构 如 图 6-11 所 示 。 


不 同 于 LeNet5 及 AlexNet 使 用 的 滤波 器 ，VGG 使 用 的 滤波 器 变 得 更 小 。 这 看 似 脱离 了 LeNet5 的 设计 初衷 ， 反 而 接近 LeNet5 竭 力 避 免 的 卷 积 。 实 际 上 ，VGG 通 过 依次 采用 多 个 卷 积 ， 能 够 达到 与 更 大 的 
感受 野 (如 与 5x5、7x7) 类 似 的 效果 ， 以 提取 更 多 复杂 特征 以 及 这 些 特征 的 组 合 。 这 样 的 思想 后 来 被 许多 新 生 网 络 采 纳 ， 如 ResNet。 
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图 6-11 基于 ImageNet 的 VGG 模 型 
4.GoogLeNet 


以 机 构 命名 的 GoogLeNet 了 网络 是 2014 年 ImageNet 挑 战 的 冠军 。 相 比 VGG，GoogLe Net 进 一 步 前 释 了 “没有 最 深 ， 只 有 更 深 ” 的 道理 。 在 介绍 该 模型 之 前 ， 我 们 有 必要 先 了 解 NIN (Network in 
Network) 模型 和 Inception 模 块 ， 因 为 GoogLeNet 模 型 由 多 组 Inception 模 块 组 成 ， 同 时 模型 的 设计 借鉴 了 NIN 的 一 些 思 想 。 


NIN 模 型 主要 有 以 下 两 个 特点 : 


. 引入 了 多 层 感知 卷 积 网 络 (Multi-Layet Petceptton Convolution，MLPconv) 来 代替 一 层 线 性 卷 积 网 络 。MLPconv 是 通过 在 线性 卷 积 后 增加 若干 层 的 卷 积 而 形成 的 一 个 微型 多 层 卷 积 网 络 ， 可 用 于 提取 高 
度 非 线性 特征 。 


.一般 来 说 ， 传 统 的 CNN 网 络 最 后 几 层 都 是 全 连接 层 ， 包 含 较 多 参数 。 而 在 NIN 模 型 的 设计 中 ， 最 后 一 层 卷 积 层 包含 维度 大 小 等 同 于 类 别 数 量 的 特征 图 ， 并 采用 全 局 平均 池 化 层 替 代 全 连接 层 ， 从 而 得 
到 类 别 维 度 大 小 的 向 量 ， 再 据 此 进行 分 类 。 这 样 的 设计 有 利于 减少 参数 数量 。 


Inception 模 块 如 图 6-12 所 示 ， 图 6-12a 所 示 对 应 最 简单 的 设计 ， 输 出 是 将 3 个 卷 积 层 和 1 个 池 化 层 的 特征 进行 拼接 的 结果 。 这 种 设计 的 缺点 是 池 化 层 不 会 改变 特征 通道 数 ， 导 致 拼接 后 得 到 的 特征 的 通道 
数 较 大 。 经 过 几 层 这 样 的 模块 的 层 赤 后， 特征 的 通道 数 会 越 来 越 大 ， 相 应 的 参数 和 计算 量 也 随 之 增 大 。 为 了 改善 上 述 问题 ， 图 6-12b 所 示 引 入 了 3 个 1x1 卷 积 层 进行 降 维 ( 即 减少 通道 数 ) 。 另 一 方面 ， 如 在 
NIN 模 型 介绍 中 提 到 的 ， 引 入 1x 1 卷 积 还 可 用 于 修正 线性 特征 。 


5 x5 卷 积 层 


3 x3 卷 积 层 
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a) Inception 简单 模块 b) Jnception 会 降 维 模块 
图 6-12 ”Inception 模 块 
GoogLeNet 由 多 组 Inception 模 块 堆 革 而 成 。 此 外 ，GoogLeNet 和 和 NIN 网络 一 样 ， 在 网 络 的 最 后 采用 了 均值 池 化 层 来 替代 传统 的 多 层 全 连接 层 ; 但 与 NIN 不 同 的 是 ，GoogLeNet 在 池 化 层 后 接 了 一 层 
全 连接 层 以 映射 到 类 别 数 。 除 了 上 述 两 个 特点 ， 考 虑 到 网 络 中 间 层 特征 也 很 有 判别 性 ，GoogLeNet 在 中 间 层 添加 了 两 个 辅助 分 类 器 ， 用 于 在 反 向 传播 中 增强 梯度 同时 增强 正则 化 ， 而 整个 网 络 的 损失 函数 由 
这 三 个 分 类 器 的 损失 加 权 求 和 得 到 。 
GoogLeNet 整 体 网 络 结构 如 图 6-13 所 示 ， 由 22 层 网 络 构 成 : 最 开始 为 3 层 普通 的 卷 积 层 ; 接 下 来 为 3 组 子 网 络 ， 第 1、2、3 组 子 网 络 分 别 包含 2、5、2 个 Inception 模 块 ; 然后 接 平均 池 化 层 和 全 连接 
层 。 


以 上 介绍 的 是 GoogLeNet 的 第 一 版 模型 ( 称 作 GoogLeNet-v1) 。GoogLeNet 后 续 又 产生 了 多 个 版 本 。GoogLeNet-v2 引 入 BN (Batch Normalization) 层 ; GoogLeNet-v3 针 对 一 些 卷 积 层 做 了 分 


由 | < 口 


解 ， 进 一 步 深化 网 络 并 提高 网 络 的 非 线 性 表达 能 力 ; GoogLeNet-v4 则 引入 了 接 下 来 要 讲 的 ResNet 的 设计 思路 。GoogLeNet 从 v1 到 v4 的 每 一 版 改进 都 使 得 准确 度 有 进一步 提升 。 限 于 篇 幅 ， 本 书 不 再 具体 
介绍 v2 到 v4 的 架构 。 


5.ResNet 


ResNet (Residual Network) 是 2015 年 ImageNet 图 像 分 类 、 图 像 物体 定位 和 图 像 物体 检测 比赛 的 冠军 。 针 对 训练 卷 积 神经 网 络 时 加 深 网 络 会 导致 准确 度 下 降 的 问题 ，ResNet 在 已 有 设计 思路 (包括 
采用 BN、 小 卷 积 核 、 ee 的 基础 上 ， 提 出 了 采用 残 差 模块 的 方法 。 如 图 6-14 所 示 ， 每 个 残 差 模块 包含 两 条 路 径 ， 其 中 一 条 路 径 的 设计 借鉴 了 Highway Network 思 想 ， 相 当 于 在 旁 侧 专门 开辟 
一 个 通道 使 得 输入 可 以 直达 输出 ; 另 一 条 路 径 则 是 对 输入 特征 做 2 到 3 次 卷 积 操作 得 到 与 该 特征 对 应 的 残 差 F (x) ; 最 后 再 将 两 条 路 径 上 的 输出 相 加 ， 即 优化 的 目标 由 原来 的 拟 合 输出 H (x) 变 成 输出 和 输入 
的 差 F (x) =H (x) -x。 残 差 模块 这 一 设计 将 要 解决 的 问题 由 学 习 一 个 恒 等 变换 转化 为 学 习 如 何 使 F (x) =0 并 使 输出 仍 为 x， 使 问题 得 到 了 简化 。 


Euless 


| 
| 
国 


[ain 


| 
| 


[ea 
了 了 和 虽 


二 


| 


| a 


Cp i eal 
_ Wf ad ~ _ 
CLR Er 


Ee i 本 | 


tr 指引 Ti | Bisr Hs LE 


fT 十 -十 


呈 - 测 | 上 ER | | LT 
re | x + ed 5 亡 


~ A 


dari He eh rr 


CE 
| ct 
本 中 


| 


deri He pe tori 


sj | 


图 6-13 GoogLeNet 


L(x) 


H(x)= F(x)+x 


relu 


图 6-14 残 差 模块 结构 


残 差 模块 的 不 同形 式 如 图 6-15 所 示 ， 左 侧 图 所 示 是 基本 模块 连接 方式 ， 由 两 个 输出 通道 数 相同 的 3x 3 卷 积 层 组 成 。 右 侧 图 所 示 是 瓶 矣 模块 (Bottleneck) 连接 方式 。 因 为 先 使 用 了 1x 1 的 卷 积 层 来 对 输 
入 进行 降 维 (图 中 所 示 示 例 由 256 维 下 降 至 64 维 ) ， 然 后 又 使 用 1x 1 卷 积 层 来 对 输入 进行 升 维 (图 中 所 示 示 例 由 64 维 上 升 至 256 维 ) ; 如 此 一 来 ， 相 比 原 始 的 输入 和 最 终 的 输出 ， 中 间 3x 3 卷 积 层 的 输入 和 输 
出 通道 数 都 较 小 〈 图 中 示例 由 64 维 至 64 维 ) ， 整 体形 似 瓶 颈 ， 因 此 得 名 “ 皂 颈 模 块 ”.。 


64—d | 250 一 d 


图 6-15 “” 残 差 模块 的 不 同 模式 


图 6-16 是 基于 ImageNet 的 50、101、152 层 ResNet 网 络 的 连接 示意 图 ， 其 中 残 差 模块 使 用 的 是 瓶颈 模块 。 这 三 个 模型 的 区 别 在 于 残 差 模块 的 重复 次 数 各 不 相同 ( 见 图 右上 角 ) 。 对 于 一 般 网 络 ， 随 着 
网 络 层 数 不 断 加 深 其 在 训练 集 上 的 误差 会 不 断 增 大 ， 而 ResNet 的 结构 设计 使 得 训练 误差 会 随 着 层 数 增 大 反而 逐渐 减 小 ， 训 | 练 收敛 速度 较 快 ， 因 而 可 用 于 训练 上 百 乃 至 近 干 层 的 卷 积 神经 网 络 。 
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图 6-16 ”基于 Image 的 ResNet 模 型 


6.3 ”PaddlePaddle 实 现 


在 本 节 内 ， 将 以 识别 手写 数字 任务 为 例 ， 利 用 PaddlePaddle 平 台 进 行 代码 实现 。 从 实际 问题 出 友 ， 帮 助 读者 理解 卷 积 神经 网 络 的 设计 和 组 成 。 


6.3.1 数据 介绍 


当 我 们 学 习 编 程 的 时 候 ， 编 写 的 第 一 个 程序 一 般 是 实现 打印 “Hello World”。 而 机 器 学 习 (或 深度 学 习 ) 的 入 门 教程 ,一 般 都 是 MNIST 数 据 库 上 的 手写 识别 问题 。 原 因 是 手写 识别 属于 典型 的 图 像 分 
类 问题 ， 比 较 简单 ， 同 时 M NIST 数 据 集 也 很 完备 。M NIST 数 据 集 作 为 一 个 简单 的 计算 机 视觉 数据 集 ， 包 含 一 系列 图 6-17 所 示 的 手写 数字 图 片 和 对 应 的 标签 
的 10 个 数字 。 每 张 图 片 都 经 过 了 大 小 归 一 化 并 将 数字 和 置 于 图 片 中 心 位 置 。 
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图 6-17 MNIST 图 片 示例 


。 图 片 是 28x28 的 像素 和 矩阵， 标签 则 对 应 着 0~ 9 


PaddlePaddle 在 APl 中 提供 了 自动 加 载 MNI1ST 数 据 的 模块 paddle.dataset.mnist， 如 表 6-1 所 示 。 加 载 后 的 数据 位 于 /home/username/.cache/paddle/dataset/mnist 下 。 


表 6-1 MNIST 数 据 文 件 
文件 名 称 文件 名 称 说 明 
train-images-idx3-ubyte | 训练 数据 图 片 ，60 000 条 数据 || t10k-images-idx3-ubyte | 测试 数据 图 片 ，10 000 条 数据 
train-labels-idx1-ubyte | 训练 数据 标签 ，60 000 条 数据 ||t10k-labels-idx1-ubyte | 测试 数据 标签 ，10 000 条 数据 


6.3.2 ”模型 概 蜗 


本 小 节 将 介绍 一 些 与 基于 M NIST 数 据 训 练 分 类 器 相关 的 定义 : 


` X 是 输入 : MNIST 图 片 是 28X28 的 二 维 图 像 ， 为 了 进行 计算 ， 我 们 将 其 转化 为 784 维 的 一 个 向 量 ， 即 X= (x0，x1，…，xX783) 。 转 化 的 具体 做 法 是 ， 每 张 图片 是 由 28X28=784 个 像素 构成 的 ， 将 其 按 固 
定 顺序 (如 按 行 或 者 按 列 ) 展开 形成 一 个 行 向 量 ， 并 将 每 个 原始 像素 值 归 一 化 为 0，1] 之 间 的 数值 。 


“YY 是 输出 : 分 类 器 的 输出 是 10 类 数字 〈0~9) ， 即 Y= (y0，y1，…，y9) ， 每 一 维 代表 图 片 被 分 类 为 第 i 类 数字 的 概率 。 


` 工 是 图 片 的 真实 标签 : L= (10，11，…，]9) 也 是 10 维 ， 但 只 有 一 维 为 1， 其 他 维度 都 为 0。 为 1 的 维度 对 应 图 片 表示 的 真实 数字 ， 例 如 L= 〈1，0，…，0) 表示 图 片 表示 的 数字 是 1 


6.3.3 ”配置 党 明 


本 小 节 将 介绍 模型 训练 相关 的 代码 配置 ， 主 要 包括 定义 分 类 器 、 初 始 化 设置 、 配 置 网 络 结构 、 训 | 练 及 预测 等 。 
1. 库 文件 
首先 ， 加 载 PaddlePaddle 的 v2 版 本 的 APl 包 ， 如 代码 清单 6-1 所 示 。 


代码 清单 6-1 ”加载 paddlepaddle 包 


import paddle.v2 as paddle 


其 次 ， 定 义 三 个 不 同类 型 的 分 类 器 ， 具 体 如 表 6-2 所 示 。 


表 6-2 分 类 器 对 比 


分 类 希 主要 网 络 层 数 包含 的 网 络 层 网 络 相 对 复杂 程度 
Softmax 分 类 器 1 | 全 各 接 必 简单 
多 层 感知 器 分 类 器 | 3 | 全 过 接 必 中 等 


卷 积 神经 网 络 分 类 器 “| 5 《| 着 积 层 、 全 连接 层 复杂 


(1) Softmax 回 归 


只 通过 一 层 简单 的 以 Softmax 为 激活 函数 的 全 连接 层 得 到 分 类 结果 。 
代码 实现 如 代码 清单 6-2 所 示 。 


加 


人体 过 程 和 网 络 结构 如 图 6-18 所 示 。784 维 的 输入 特征 经 过 节点 数目 为 10 的 全 连接 层 后 ， 直 接 通过 Softmax 消 数 进 行 多 分 类 。 对 应 


图 6-18 ”Softmax 回 归 


代码 清单 6-2 Softmax 分 类 器 


def Softmax regression (Img) : 
predict = paddle.1layer.fc (input=img, 


size=10, 
act=paddle.activation.Softmax () ) 


return predict 


(2) 多 层 感 知 器 


Softmax 回 归 模型 采用 了 最 简单 的 两 层 神经 网 络 ， 即 只 有 输入 层 和 输出 层 ， 因 此 其 拟 合 能 力 有 限 。 为 了 达到 更 好 的 识别 效果 ， 我 们 考虑 在 输入 层 和 输出 层 中 间 加 上 若干 个 隐藏 层 ， 例 如 ， 代 码 清单 6-3 实 
现 了 一 个 含有 两 个 隐藏 层 〈 即 全 连接 层 ) 的 多 层 感知 器 。 其 中 两 个 隐藏 层 的 激活 函数 均 采 用 ReLU， 输 出 层 的 激活 函数 用 Softmax。 对 应 的 多 层 感 知 器 的 网 络 结构 如 图 6-19 所 示 。784 维 的 输入 特征 ， 先 后 经 
过 两 个 节点 数 为 128 和 64 的 全 连接 层 ， 最 后 通过 Softmax 函 数 进行 多 分 类 。 


784 


代码 清单 6-3 ”多 层 感 知 器 分 类 器 


def multilayer perceptron (img): 


# 第 一 个 全 连接 层 ， 激 活 函 数 为 ReLU 


128 04 10 10 


图 6-19 ”多 层 感知 器 


hiddenl = paddle.1layer.fc (input=img, size=128, act=paddle.activation.Relu()) 


# 第 二 个 全 连接 层 ， 注 活 国 数 为 Re 


hidden2 = padqddqle.Layer.: c (input t=hidden]1, 


size=64, 


act=p aajie。 activation.Relul 


# 以 softmax 为 激活 函数 的 全 连接 输出 层 ， 输出 层 的 大 小 子 :六 数 学 的 个 数 10 
predict = paddle.layer.fc (input=hidden2, 


size=10, 


act=paddle.activation.Softmax ()) 


return predict 


(3) 卷 积 神经 网 络 分 类 器 


卷 积 神经 网 络 分 类 器 的 网 络 结构 如 图 6-20 所 示 ， 输 入 的 二 维 图 像 ， 经 过 两 次 卷 积 层 后 接 池 化 层 的 结构 ， 在 通过 输出 节点 数目 为 10 的 以 Softmax 函 数 作为 激活 函数 的 全 连接 层 后 得 到 多 分 类 输出 ， 代 码 实 


现 如 代码 清单 6-4 所 示 。 


28 x 28 24X24%20 12x12x20 8x8x50 4x4x50 


代码 清单 6-4 ” 卷 积 神经 网 络 分 类 器 


图 6-20 “ 卷 积 神经 网 络 分 类 器 


def convolutional neural network (img) : 


# 第 一 个 卷 积 - 池 化 层 


Conv_ poo] = paddle.networks.simple img conv Pool ( 


input=img, 
filter size=5, 
num fi 
num channel=1, 
pool size=2, 
pool stride=2, 
act=paddle.activation.Relu()) 
# 第 二 个 卷 积 - 池 化 层 


dt 
(0 
上 
1 
DD 
CD 


conv pool 2 = paddle.networks.simple img conv Pool ( 


input=conv pool 1, 

filter size=5, 

num filters=50, 

num channel=20, 

pool size=2, 

nk stride=2, 
ct=paddle.activation.Relu()) 


# 以 Softmax 为 激活 函数 的 全 连接 答 出 层 ， 


输出 层 的 大 小 必须 为 数字 的 个 数 10 


= paddle.1layer.fc (input=conv pool 2， 


size=10, 


act=paddle.activation.Softmax ()) 


return predict 


3. 配 置 分 类 网 络 


接 下 来 需要 配置 分 类 网 络 的 结构 ， 首 先 通 


过 layer.data 配 置 数据 输入 层 ， 然 后 调用 分 类 器 得 到 分 类 结果 。 代 码 清单 6-5 所 示 代 码 中 提供 了 三 个 不 同 的 分 类 器 ， 每 次 使 用 选择 其 中 一 个 “注释 掉 其 余 两 个 即 


可 ) ， 例 如 代码 中 选用 的 是 卷 积 神经 网 络 分 类 器 。 训 人 才 记 结果 计算 其 损失 函数 ， 分 类 问题 常常 选择 交叉 灶 损 失 函 数 。 
代码 清单 6-5 ”配置 分 类 网 络 

# 该 模型 运行 在 单个 CPU 上 

# 初 始 化 


paddle.init (use gpu=False, 
# 数 据 层 ， 包 括 输入 图 像 和 标签 
images = paddle.1layer.datal( 


trainer count=1) 


name='pixel', type=paddle.data type.dense Vector (784) ) 
label = paddle.1layer.data( 
name='label', type=paddle.data type.integer value (10) ) 
# predict = Softmax regression (images) # Softmax 回 归 
# predict = multilayer perceptron (images) # 多 层 感知 器 
predict = convolutional neural network (images) # 卷 积 神经 网 络 
# 损失 函数 ，classification cost 冰 数 内 部 使 用 交 义 炳 损失 函数 
cost = paddle.layer.classification cost (input=predict, label=label) 


4. 训 | 


在 训练 前 需要 指定 训练 相关 的 参数 ， 相 关 代码 如 代码 清单 6-6 所 示 。 相 关 参 数 的 影响 和 设置 参见 第 10 章 。 


“ 训练 方法 (optimizer) : 代表 训练 过 程 在 更 新 权重 时 采用 动量 优化 器 Momentum。 


学 习 率 (learning rate) : 和 迭代 的 速度 ， 与 网 络 的 训练 收敛 速度 有 关系 。 
“ 正则 化 (regularization) 防止 网 络 过 拟 合 的 一 种 手段 ， 此 处 采用 L2 正 则 化 。 


代码 清单 6-6 ”指定 训练 相关 参数 


# 创 建 参数 parameters 

parameters = paddle.parameters.create (cost) 

# 创 建 优化 器 optimizer， 并 设置 相关 参数 

optimizer = paddle.optimizer.Momentum( 

learning rate=0.01 / 128.0, 

momentum=0.9, 

regularization=paddle.optimizer.L2Regularization (rate=0.0005 * 128)) 

# 构 造 训练 器 trainer 

trainer = paddle.trainer.SsGD (cost=cost, 
parameters=parameters, 
Update equation=optimizer) 


5. 定 义 事 件 处 理 函 数 
下 一 步 ， 我 们 将 开始 进行 训 经 定 事 件 处 理 溯 数 ， 可 以 让 程序 根据 训练 过 程 的 信息 做 相应 操作 ， 例 如 进行 绘图 、 输 出 训练 结果 信息 。 下 面 给 出 了 两 个 事件 处 理 浮 数 样 例 


event handler plot 和 event_ handler。 


型 


， 有 具体 实现 如 代码 清单 6-7 所 示 。 


训 [ 丝 


代码 清单 6-7 event handler_plot 函 数 


# lists 用 于 存储 训练 的 中 间 结 果 ， 包 括 cost 和 error rate 信息 ， 初 始 化 为 空 
# event 表 示 事 件 对 象 ， 包 仿 event .pass id，event.batch id，event .cost 等 信息 
Jists = [|] 
def event handler plot (event): 
global step | 
if isinstance (event, paddle.event.EndIiteration): 
# 每 训 0 ( 即 100 个 batch) ， 添 加 一 个 绘图 点 
if step $ 100 = 
Cost ee se de title cost, step, event.cost) 
# 绘制 cost 图 像 ， 保 存 图 像 为 'train test cost.png' 
cost ploter.plot('./train test cost') 
error ploter.append( 
train title error, step, event.metrics![' Sass ate error evaluator']) 
# 绘制 error rate 图 像 ， 保存 图 像 为 'train test error rate.png' 
error ploter.plot('./train test error rate') 
tep += 1 
每 训 练 100 个 batch， 输出 一 次 训 练 络 抄 信 息 
f event .patch id $ 100 = 
print "Pass od, Br sd, Cost %f, 
event.pass id, event.batch id 
f isinstance (event, paddle.event.EndPass): 
# 保存 参数 至 文件 
with 


六 器 


PP- 


© 


© 1 
Ss" $$ ( 
event .cost, event.metrics) 


上 


© 


open (" params pass %d.tar' $ event 
trainer.save parameter to tar(f) 
# 利用 测试 数据 进行 测试 
# paddle.dataset.mnist.test() 作 为 测试 数据 集 
result = trainer.test (reader=paddle.batch ( 
paddle.dataset .mnist.test(), batch size=128)) 
print "Test with Pass %d, Cost %f, Ss\n" % ( 
event.pass id, result.cost, result.metrics) 

# 添加 测试 数据 的 cost 和 error rate 绘 图 数据 
0 append (test title cost, step, result.cost) 
error ploter.append( 

test title error, step, result.me 
# 存储 测试 数据 的 cost 和 error rate 数 据 
Jists.append ( ( 


.pass id, 'w') as 工 : 


fica 


trics['classi tion error evaluator']) 


event .pass id, result.cost, result.metrics[ ‘classification error evaluator'])) 
在 使 用 event_handler_plot 消 数 时 ， 需 要 先进 行 代 码 清单 6-8 所 示 操 作 。 


代码 清单 6-8 ”调用 绘图 函数 前 需 添加 的 代码 


import matplotlib 

matplotlib.use ('Agg') 
from paddle.v2.plot import Ploter 
set = 0 # 定 义 用 于 绘图 选 点 的 全 局 变量 


注意 ”from paddle.v2.plot import Ploter 语 句 引 入 了 PaddlePaddle 的 绘图 工具 包 ， 其 内 部 也 是 调用 了 matplotlib 


包 。 在 默认 设置 下 ， 运 行 


绘图 代码 时 可 能 会 遇 到 “no display name and no$DISPLAY environment 


vatiable” 


的 问题 。 


这 是 因为 绘图 工具 


的 后 端 ， 从 而 解决 该 问题 。 


event handler 是 event _handler_plot 的 六 


函数 的 默认 后 端 为 一 些 需要 图 形 用 户 接口 《GUI) 的 后 


青 简 版 (去 掉 了 用 于 绘图 的 代码 ) ， 


代码 清单 6-9 ”event_handler 函 数 


端 ， 而 运行 的 当前 环境 不 满足 。 为 此 ， 可 加 入 import matplotlib 和 matplotlib.use ( “Agg”) 语句 重新 指定 不 需要 GUI 


只 次 等 


天 个 计 


巍 


过 程 中 输出 损失 遂 数 值 、 错 误 率 等 相关 信息 ， 具 体 实现 如 代码 清单 6-9 所 示 。 


# lists 用 于 存储 训练 的 中 间 结 果 ， 包 括 cost 和 error fate 信息 ， 初 始 化 为 空 
# event 表 示 事 件 对 象 ， 包 仿 event .pass id、 event.batch id、 event .cost 等 信息 
lJists = [] 
def event handler (event): 
if isinstance (event, paddle.event.End ran) 
# 每 训练 100 个 batch， 输出 一 次 训练 十 果 信 息 
if event.batch id %$ 100 = 
print "Pass %qd, Be gd Cost %f, Ss" $$ ( 
event .pass id, event.batch id, event.cost, event.metrics) 
if isinstance (event, paddle.event.EndPass): 
# 保存 参数 
with 0 params pass %d.tar' g event.pass id, 'w') as f: 
arameters .to tar( 工 ) 
# 利用 测试 数据 进行 测试 
result = trainer.test (reader=paddle.batch( 
paddle.dataset .mist.test (), batch size=128)) 
print "Test with Pass $d, Cost %f, %s\n" %$ ( 
event.pass id, result.cost, result.metrics) 
# 存储 测试 数据 的 cost 和 error rate 数 据 
lists.append(( 
event .pass id, result.cost, result.metrics['classification error evaluator'])) 


6. 模 型 训练 


模型 训练 过 程 的 调用 如 代码 清单 6-10 所 示 ， 结 合 其 中 的 代码 对 该 过 程 进行 说 明 : paddle.reader.shuffle (paddle.dataset.mnist.train () ，buf size=8192) 表示 trainer 从 
paddle.dataset.mnist.train () 这 个 reader 中 读 取 了 buf size=8192 大 小 的 数据 并 打 乱 顺序 。paddle.batch (reader () ， ee 表示 从 打 乱 的 数据 中 再 取出 batch_size= 128 大 小 的 数据 进行 


一 次 欠 代 训练 。num_passes 定 义 了 训练 的 轮 数 。 而 事件 处 理 函 数 event_handler 参 数 的 值 可 以 根据 需要 从 前 述 两 个 函数 中 进行 选择 。 如 果 不 需要 画图 ， 可 选择 event_handler; 反之 ， 可 选择 
event_ handler_plot。 除 此 之 外 ， 读 者 也 可 以 使 用 自 定义 的 事件 处 理 函 数 。 


代码 清单 6-10 ”调用 训练 过 程 


# 模型 训练 
# pagddle.dataset .mnist.train() 作 为 训练 数据 集 
trainer.train( 
reader=paddle.batch( 
paddle.reader.shufflel( 
paddle.dataset .mnist.train(), buf size=8192), 
batch size=128), 
event _ handler= event handler plot, 
num passes=10) 


训练 过 程 是 完全 自动 的 ，event_handler_plot 绘 制 的 cost 图 和 error_rate 图 分 别 如 图 6-21 和 图 6-22 所 示 ， 打 印 的 日 志 信 息 类 似 代码 清单 6-11 所 示 。 


-一 训 练 成 本 
-一 测试 成 本 
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图 6-21 训练 过 程 cost 图 


-一 训练 错 识 府 
0.8 -1 一 测试 错 识 率 
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图 6-22 ”训练 过 程 error_rate 图 


代码 清单 6-11 ”训练 过 程 的 日 志 信 息 示 例 


0, Batch 0, Cost 2.780790, {'classification error evaluator': 0.9453125} 
Pass 0, Batch 100, Cost 0.635356, {'classification error evaluator': 0.2109375} 

0 

0 


; Batch 200, Cost 0.326094, 人 0.1328125} 
Batch 300, Cost 0.361920, {'classification error : Be 0.1015625} 


Pass 0, Batch 400, Cost 0.410101, {'classification error evaluator': 0.125} 
Test with Pass 0, Cost 0.326659, {'classification error ， evaluator': 0.09470000118017197} 


间 间 间 间 砷 着 
ry 
KY 
Cn 
[In 


训练 之 后 ， 检 查 模型 的 预测 准确 度 。 以 某 次 训练 结果 为 例 ，3 个 分 类 器 在 测试 集 上 的 最 佳 预测 准确 度 如 表 6-3 所 示 。 


表 6-3 不 同 分 类 模型 的 准确 度 


Softmax 分 类 器 多 层 感 知 闹 分 类 顺 卷 积 神经 网 络 分 类 器 


92.34% 97.00% 99.00% 


6.3.4 ”应 用 模型 


在 完成 训练 后 ， 为 进一步 验证 模型 的 分 类 效果 ， 可 以 使 用 训练 好 的 模型 对 手写 体 数 字 图 片 进行 分 类 。 代 码 清单 6-12 展 示 了 如 何 调用 paddle.infer 接 口 对 一 张 数 字 图 片 进行 分 类 。 


代码 清单 6-12 ”预测 过 程 的 代码 


from PIL import Image 
import ey as np 
import 
# 读 取 测 试图 片 的 函数 
def load image (file): 

im = Image.open (file) .convert ('L') 

im = im.resize((28, 28), Image.ANTIALIAS) 

im = np.array (im) .astype (np.float32) .flatten () 

im = im / 255.0 

return im 
# 输 入 的 测试 图 片 真实 标签 为 "3" 
test data = [] 
CUr dir = os.getcwd () 
test data.append ( (load image (cur dir + '/image/infer 3.png'),)) 
# 进 行 推断 
probs = paddle.infer( 

output layer=predict, parameters=parameters, input=test data) 
lab = np.argsort (-probs) # probs 表 示 预 测 正确 的 可 能 性 ， 1 庄 记 网 的 宗仁 
print "Label of image/infer 3.png is: $d" $ lab[0] [0] 


分 类 结束 后 ， 打 印 的 日 志 消 息 类 似 代码 清单 6-13 所 示 。 


代码 清单 6-13 ”预测 过 程 的 日 志 信 息 样 例 


Best pass is 8, testing Avgcost is 0.0388661541573 
The classification accuracy is 98.93% 
Label of image/infer 3.png is: 3 


本 章 小 结 


传统 图 像 分 类 方法 由 多 个 阶段 构成 ， 框 架 较为 复杂 。 端 到 端的 CNN 模 型 结构 可 一 步 到 位 ， 而 且 大 幅度 提升 了 分 类 准确 率 。 在 本 章 中 ， 笔 者 首先 结合 CNN 的 基础 理论 介绍 了 CNN 的 重要 概念 ( 卷 积 操 
作 、 滤 波 器 、 超 参数 、 参 数 共 享 和 局 部 连接 等 ) ， 如 CNN 的 主要 组 成 结构 ( 卷 积 层 、 池 化 层 和 Softmax 分 类 层 ) 和 CNN 的 经 典 架构 (LeNet5、AlexNet、VGG、GoogLeNet 和 ResNet) ; 然后 用 
PaddlePaddle 配 置 和 训练 CNN 模 型 ， 并 介绍 了 如 何 使 用 PaddlePaddle 的 API 接 口 对 图 片 进行 特征 提取 和 分 类 。 对 于 其 他 数据 集 ， 比 如 ImageNet， 配 置 和 训练 流程 是 一 样 的 ， 大 家 可 以 自行 实验 。 


本 章 的 参考 代码 在 https://github.com/BaiduOSS/DeepLearningAndPaddleTutorial 下 lesson6 子 目录 下 。 


第 7 草 个 性 化 推荐 


推荐 系统 (Recommender System) 是 向 用 户 推荐 有 用 物品 的 软件 工具 和 技术 ， 它 运用 数据 分 析 、 数 据 挖 掘 等 技术 ， 实 现 对 用 户 浏 览 信 息 或 商品 进行 智能 推荐 ， 是 机 器 学 习 ， 尤 其 是 深度 学 习 算 法 的 重 
要 应 用 场景 。 本 章 首先 介绍 个 性 化 推荐 系统 的 重要 实用 价值 ;其 次 介绍 基于 内 容 过 滤 推 荐 、 协 同 过 滤 推 荐 这 两 种 经 典 的 个 性 化 推荐 方法 ; 然后 介绍 YouTube 深 度 神 经 网 络 推荐 系统 、 融 合 推荐 系统 这 两 种 典 
型 的 深度 学 习 推 荐 网 络 系统 ; 最 后 以 构建 电影 推荐 系统 为 例 ， 详 述 深度 学 习 推 荐 网 络 模型 在 PaddlePaddle 上 的 具体 实现 。 


学 完 本 章 ， 和 希望 读者 能 够 掌握 以 下 知识 点 : 
(1) 个 性 化 推荐 的 两 种 经 典 方法 一 基于 内 容 过 滤 推 荐 、 协 同 过 滤 推 荐 的 工作 原理 。 
(2) 两 种 典型 的 深度 学 习 推 荐 网 络 模型 的 设计 思路 和 运行 过 程 。 


(3) 使 用 PaddlePaddle 搭 建 深度 学 习 推 荐 网 络 模型 。 


7.1 问题 摘 述 
当今 时 代 ， 互 联网 规模 迅速 扩大 ， 海 量 信息 “ 龙 炸 ”用 户 的 大 脑 ; 电子 商务 产业 不 断 发 展 ， 干 万 种 商品 让 购物 者 应 接 不 暇 。 面 对 日 益 严重 的 信息 超载 问题 ， 获 取 有 价值 信息 的 成 本 大 大 增加 ， 人 们 迫切 
希望 能 够 获取 自己 感 兴趣 的 信息 和 商品 ， 推 荐 系统 应 运 而 生 。 


个 性 化 推荐 系统 是 高 级 的 、 智 能 的 信息 过 滤 系 统 (Information Filtering System) ， 它 的 应 用 范围 很 广 ， 信 息 流 推荐 、 电 子 商 务 平台 、 音 乐 网 站 的 “ 猜 你 喜欢 ”功能 都 是 个 性 化 推荐 系统 的 实际 应 用 案 
例 。 推 荐 系统 通过 对 用 户 行为 和 商品 属性 进行 分 析 、 挖 掘 ， 发 现 用 户 的 个 性 化 需求 与 兴趣 特点 ， 将 用 户 可 能 感 兴趣 的 信息 或 商品 推荐 给 用 户 。 推 荐 系统 不 同 于 搜索 引 警 根据 用 户 需 求 被 动 返回 信息 的 运行 过 
程 ， 它 根据 用 户 历 史 行为 主动 为 用 户 提供 精准 的 推荐 信息 。 


7.2 ”传统 推荐 万 法 


根据 Robin Burke 在 《Hybrid Web Recommender Systems》 中 提出 的 分 类 法 ， 传 统 的 推荐 方法 被 划分 为 六 种 不 同 的 推荐 方法 ， 下 面 主 要 介绍 更 为 常用 的 三 种 方法 : 基于 内 容 的 推荐 (Content- 
based Recommendation) 、 协 同 过 滤 推荐 (Collaborative Filtering Recommendation) 、 混 合 推荐 (Hybrid Recommendation) 。 


本 章 将 以 个 性 化 电影 推荐 系统 为 案例 为 读者 介绍 这 几 种 常见 的 传统 推荐 方法 。 电 影 推荐 是 基于 用 户 对 电影 的 评分 数据 完成 的 ， 评 分 数据 样 例 如 表 7-1 所 示 ， 其 中 ， 评 分 的 分 数学 围 是 0~ 5 分 ，“? ” 表 
示 未 获得 评分 数据 。 


表 7-1 用 户 对 电影 评分 


movi EY 
TI i TE I 
TI 和 ww 


后 面 将 会 出 现 的 符号 的 具体 含义 如 表 7-2 所 示 。 


表 7-2 符号 含义 对 照 说 明 


符号 含义 


Nn, 表示 用 户 数 量 

hm 表示 电影 数量 

r(i, ) 如 果 等 于 1 则 表示 用 户 j 对 电影 i 进行 了 评分 
y(i,)) 表示 用 户 j 对 电影 i 的 评分 

m()) 表示 用 户 j 评 过 分 的 电影 的 总 数 


基于 表 7-1 所 示 的 评分 数据 ， 可 以 求 得 nu=4，nm=5，y (1' 1) =5。 


7.2.1 基于 内 容 的 推荐 

基于 内 容 的 推荐 系统 通 一 系列 用 户 之 前 已 评分 物品 的 文档 和 (或 ) 描述 ， 从 而 基于 用 户 已 评分 对 象 的 特征 建立 模型 或 个 人 信息 。 个 人 信息 是 用 户 兴趣 的 结构 化 描述 ， 并 且 被 应 用 在 推荐 新 物品 
中 。 推 荐 的 主要 处 理 过 程 是 将 用 户 个 人 信息 的 特征 和 内 容 对 象 的 特征 相 匹 配 ， 结 果 就 是 用 户 对 某 个 对 象 感 兴趣 程度 的 评价 。 

下 面 将 结合 上 述 个 性 化 电影 推荐 系统 案例 为 读者 介绍 基于 内 容 的 推荐 方法 的 主要 步骤 : 

1. 获 取 特征 向 量 


下 面 为 每 部 电影 提取 两 个 属性 特征 作为 推荐 依据 ， 即 x1 (浪漫 指数 ， 代 表 电影 的 浪漫 程度 ) 和 x> (动作 指数 ， 代 表 电 影 的 动作 程度 ) ， 用 n 表 示 特 征 维度 (n=2) 。 此 外 ， 每 一 部 电影 都 加 上 一 个 特征 偏 
置 项 ， 该 项 是 不 代表 属性 的 固定 值 ， 记 为 x0=1。 因 此 ， 每 一 部 电影 都 有 一 个 3x 1 维度 的 特征 向 量 ， 例 如 第 一 部 电影 甜蜜 密 : x (1) =[1，0.9，0.1]T 代 表 该 电影 的 浪漫 指数 是 0.9， 动 作 指数 是 0.1。 对 于 表 7-1 
中 的 所 有 电影 ， 可 以 得 到 电影 的 特征 向 量 组 为 {x 1) ,x (2 ,x GB),x( ，x (3))} 

2. 用 户 评分 表示 

用 户 j 对 电影 的 评分 预测 可 以 表示 为 (6 4) ) TIx 由) ， 其 中 6 小 表示 用 户 j 的 电影 类 型 喜好 参数 构成 的 向 量 ， 这 个 向 量 恰好 是 模型 需要 学 习 的 参数 ， 其 在 此 应 用 场景 下 的 意义 是 用 户 j 对 于 浪漫 类 电影 和 动 


作 类 电影 的 喜好 程度 。 例 如 用 户 小 红 喜 欢 看 浪漫 电影 ， 不 喜欢 看 动作 电影 ， 其 对 应 的 电影 类 型 喜好 参数 向 量 6 (1) =[0，5，0]1， 则 用 户 Alice 对 第 一 部 电影 的 评分 预测 为 
(6 (1) ) TIx1=0x1+5x0.9+0x0.1=4.5。 


3. 目 标 函 数 


完成 上 述 变量 的 定义 和 说 明之 后 ， 下 一 步 需 要 定义 目标 图 数 。 目 标 阔 数 的 优化 使 用 线性 回归 模型 。 对 每 个 用 户 而 言 ， 该 线性 回归 模型 的 成 本 函数 为 预测 误差 (预测 评分 和 真实 评分 的 差 值 ) 的 平方 和 ， 


再 加 上 正则 化 项 : 
min 5 了 (60) xX) — yl + (0") (7-1) 


上 式 中 ， 求 和 符号 下 的 限制 条 件 表示 目标 遂 数 只 计算 那些 用 户 评 过 分 的 电影 。 OF 表示 电影 类 型 喜好 参数 向 量 9 由 的 第 k 项 。 


isr(i,j)l 


构建 一 个 推荐 系统 ， 需 要 预测 所 有 用 户 对 不 同 电 影 的 喜好 ， 因 此 推荐 系统 需要 学 习 优 化 所 有 用 户 的 电影 类 型 喜好 参数 向 量 ， 推 荐 系统 模型 的 全 局 成 本 函数 等 于 每 个 用 户 对 应 的 线性 回归 模型 的 成 本 函数 
之 和 : 


] n aT 1 2 
TM gw So (0”) x -y 175” 2 (0 )) (7-2) 


4. 训 | 练 优化 


完成 目标 函数 的 定义 之 后 ， 需 要 确定 优化 目标 函数 的 方法 ， 此 处 选用 梯度 下 降 算法 迭代 优化 目标 函数 。 因 为 当时 参数 向 量 对 应 特征 向 量 中 的 偏 置 项 ， 该 项 是 人 为 设 定 的 固定 值 ， 不 需要 正则 化 ， 所 以 根 
据 是 否 等 于 0 分 别 列 出 迭代 公式 如 下 : 


ys k=0,0n7=0) -a |1(90] x?) -yx® 


NTw | . | 
当 k#0,0" =0" -o> |(0") x -yj +400 
上 式 中 ，a 是 学 习 率 ， 与 a 做 乘法 的 因子 是 由 成 本 函数 对 0 求 导 所 得 。 


7.2.2 ”协同 过 渡 推 荐 


协同 过 滤 推 荐 方法 基于 用 户 对 商品 的 评分 或 其 他 行为 (如 购买 ) 模式 来 为 用 户 提供 个 性 化 的 推荐 ， 而 不 需要 了 解 用户 或 者 商品 的 大 量 信息 。 这 种 方法 是 找到 与 用 户 有 相同 品味 的 用 户 ， 然 后 将 相似 用 户 
过 去 喜欢 的 物品 推荐 给 用 户 。 协 同 过 滤 推 荐 是 应 用 最 广泛 的 推荐 方法 之 一 ， 它 可 以 分 为 多 个 子 类 : 基于 用 户 (User-Based) 的 推荐 、 基 于 物品 (ltem-Based) 的 推荐 、 基 于 社交 网 络 关 系 (Social- 
Based) 的 推荐 、 基 于 模型 (Model-based) 的 推荐 等 。 


在 上 一 节 基 于 内 容 的 推荐 方法 中 ， 推 荐 系统 根据 每 部 电影 的 类 型 特征 值 学 习 了 表征 用 户 对 不 同类 型 电影 喜好 的 参数 向 量 ， 预 测 了 用 户 对 于 电影 的 评分 并 依 此 进行 推荐 。 但 是 在 现实 应 用 中 ， 得 到 推荐 系 
统 电影 数据 库 中 所 有 电影 的 类 型 特征 值 是 很 困难 的 ， 人 为 标定 这 些 特 征 值 费时 费力 ， 也 容易 掺 杂 主 观 因素 。 如 果 每 部 电影 的 特征 值 是 未 知 的， 但 用 户 对 不 同类 型 电影 喜好 的 参数 向 量 是 已 知 的 ， 是 否 可 以 学 
习 得 出 每 部 电影 的 类 型 特征 值 呢 ? 


根据 上 一 节 的 内 容 ， 类 比 两 种 情况 的 求解 思路 ， 可 以 得 出 上 述 问 题 的 目标 浮 数 : 


min mm] > > (e0)] X -yt 17D” 2 |( ) (7-3 ) 


注意 累计 符号 的 上 限 由 mn, 变 成 了 n。 


由 此 可 知 ， 对 于 一 个 电影 推荐 系统 ， 初 始 化 用 户 参数 向 量 6， 然 后 可 以 进 代 求 出 所 有 电影 特征 值 x 和 用 户 参 数 向 量 6， 这 就 是 初始 协同 过 滤 方 法 的 基本 思路 。 如 果 对 已 知 6 求 x: 和 已 知 x 求 6 的 两 个 目标 函数 
进行 改进 ， 就 可 以 得 到 同时 学 习 9 和 x 的 目标 函数 。 


1. 目 标 范 数 


对 比 已 知 6 求 x: 和 已 知 x 求 6 的 两 个 目标 函数 ， 不 难 发 现 两 个 函数 预测 误差 平方 和 项 相同 ， 求 和 限制 条 件 不 同 ， 正 则 化 项 不 同 。 改 进 后 的 联合 学 习 目 标 函 数 使 用 相同 的 预测 误差 平方 和 项 ， 改 变 求 和 的 限制 
条 件 ， 并 保留 不 同 的 正则 化 项 ， 融 合 了 两 个 目标 函数 中 所 有 的 成 本 项 ， 具 体 如 下 : 


Min/(x ),..., XY, O07),...,0°"") 


> (60) oO 4 pa ( ) +5 75 (0") A 


2. 训 练 优化 


优化 上 述 目标 函数 时 ， 首 先 将 x (1) ，http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/17642/OEBPS/Text/..., x nm) ，6 (1) , http://www.hzcourse.com/resource/readBook? 


path=/openresources/teach_ebook/uncompressed/17642/OEBPS/Text/...，98 nu) 在 较 小 范围 进行 随机 初始 化 ， 然 后 应 用 梯度 下 降 算法 迭代 优化 目标 函数 。 迁 代 公式 如 下 : 


X, = my (60)) xX) 一 了 OW) + Ax (7-5 ) 


Zo j)=l 


0 "=0 — _ 加 (60)) x = x(" + 40 (7-6) 


待 目标 函数 收敛 时 ， 和 迭代 完成 ， (6 () ) Tx () 即 为 推荐 系统 的 期 望 输出 (用 户 j 给 电影 的 评分 ) 。 


在 上 述 两 种 推荐 方法 中 ， 通 过 学 习 得 到 的 特征 矩阵 X 包 含 了 电影 的 重要 数据 信息 ， 有 时 这 些 信息 隐 含 着 某 些 不 易 被 人 读 懂 的 属性 和 关系 ， 但 是 依然 需要 把 特征 矩阵 X 作 为 重要 的 电影 推荐 依据 。 例 如 ， 如 
果 一 位 用 户 正在 观看 电影 x() ， 推 荐 模型 可 以 依据 给 定 的 相似 性 度量 方法 〈 例 如 比较 向 量 之 间 的 欧 氏 距离 ) ， 找 到 与 x 人 相似 的 电影 x 小 推荐 给 该 用 户 。 


注意 在 协同 过 滤 推 荐 方法 中 ， 不 需要 设置 额外 的 特征 偏 置 项 ， 所 以 有 x，0 ER?。 


7.2.3 ”混合 推荐 
混合 推荐 系统 是 一 种 将 多 个 算法 或 推荐 系统 单元 组 合 在 一 起 的 技术 。 推 荐 系统 的 各 个 组 成 部 分 可 以 以 流水 线 方式 串 行 连接 ， 也 可 以 并 行 运行 并 一 同 输出 结果 。 在 实际 工程 应 用 中 ， 多 采用 组 合 推荐 方 
法 。 


组 合 策略 选取 的 最 重要 原则 就 是 结合 不 同 算法 和 模型 的 优点 ， 并 克服 它们 的 缺陷 和 问题 。 在 Robin Burke 的 《Hybrid Recommender Systems: Survey and Experiments》 中 ， 将 混合 推荐 方法 划分 
为 7 种 不 同 的 混合 策略 ， 这 7 种 组 合 策略 的 基本 概念 如 下 : 


. 加 权 (Weight) : 对 多 种 推荐 预测 结果 加 权 求 和 作为 最 终 推荐 预测 结果 。 

` 变换 (Switch) : 根据 不 同 的 问题 背景 和 实际 情况 ， 变 换 选 择 不 同 的 推荐 方法 。 

. 交叉 混合 (Mixed) : 同时 采用 多 种 推荐 方法 给 出 多 种 推荐 预测 结果 供用 户 参 考 、 决 策 

特征 组 合 (Feature combination) : 对 来 自 不 同 推荐 数据 源 的 特征 进行 组 合 ， 再 应 用 到 另 一 种 推荐 方法 中 。 

. 层 登 (Cascade) : 先 选用 一 种 推荐 方法 产生 粗糙 的 推荐 预测 结果 ， 再 在 此 推荐 结果 的 基础 上 使 用 第 二 种 推荐 方法 产生 较 精确 的 推荐 预测 结果 。 


特征 扩充 (Feature augmentation) : 一 种 推荐 方法 产生 的 特征 信息 补充 到 另 一 种 推荐 方法 的 特征 输入 中 。 


. 元 级 别 (Meta-level) : 一 种 推荐 方法 产生 的 模型 作为 另 一 种 推荐 方法 的 输入 。 


7.3 ” 深 硫 学 习 推 荐 方法 


7.3.1 _ YouTube 的 深度 神经 网 络 推 荐 系统 


YouTube 是 世界 上 最 大 的 视频 上 传 、 分 享 和 发 现 网 站 ，YouTube 推 荐 系统 为 超过 10 亿 用 户 从 不 断 增长 的 视频 库 中 推荐 个 性 化 的 内 容 ， 系 统 由 两 个 神经 网 络 组 成 ， 分 别 是 候选 生成 网 络 和 排序 网 络 。 候 选 
生成 网 络 从 百 万 量 级 的 视频 库 中 生成 上 百 个 候选 ， 排 序 网 络 对 候选 进行 打分 排序 ， 输 出 排名 最 高 的 数 十 个 结果 。 下 面 将 分 别 对 上 述 两 个 神经 网 络 进行 介绍 。 


1. 候 选 生 成 网 络 (Candidate Generation Network) 


六 


候选 生成 网 络 的 核心 思想 是 将 推荐 问题 建 模 为 一 个 类 别 数 极 大 的 多 分 类 问题 。 以 YouTube 视 频 推荐 系统 为 例 ， 对 于 一 个 YouTube 用 户 ， 可 以 选用 的 类 别 包 括 以 下 两 种 ; 一 是 历史 行为 信息 ， 包 括 用 户 
看 历史 (视频 ID) 、 搜 索 词 记录 (search tokens) 等 ; 二 是 用 户 属性 信息 ， 包 括 人 口 学 信息 (如 地 理 位 置 、 用 户 登 录 设备 ) 、 二 值 特征 (如 性 别 、 是 否 登 录 ) 和 连续 特征 (如 用 户 年 龄 ) 等 。 通 过 上 述 分 
类 别 ， 推 荐 系统 对 视频 库 中 所 有 视频 分 别 进 行 分 类 ， 得 到 每 一 类 的 分 类 结果 ( 即 每 一 个 视频 的 推荐 概率 ) ， 最 终 输 出 概率 较 高 的 几 百 个 视频 。 


关 


下 面 介绍 候选 生成 网 络 的 主要 运行 过 程 。 首 先 ， 将 用 户 历 史 行 为 信息 映射 为 向 量 后 取 平均 值得 到 固定 长 度 的 表示 ; 同时 ， 输 入 用 户 属性 信息 中 的 人 口 学 信息 ， 并 将 二 值 特征 和 连续 特征 进行 归 一 化 处 
理 ， 用 以 优化 新 用 户 的 推荐 效果 。 接 下 来 ， 将 所 有 特征 表示 拼接 为 一 个 特征 向 量 ， 并 输入 给 非 线形 多 层 感 知 器 (MLP， 功 能 介绍 详 见 第 6 章 内 容 ) 处 理 。MLP 的 输出 分 别 流向 训练 和 预测 两 个 模块 。 在 训练 
模块 ，MLP 的 输出 流向 Softmax 分 类 层 ， 与 所 有 视频 特征 一 同 做 分 类 ; 在 预测 模块 ， 计 算 MLP 的 输出 〈 用 户 的 综合 特征 ) 与 所 有 视频 的 相似 度 ， 取 相似 度 最 高 的 K 个 输出 视频 作为 候选 生成 网 络 的 预测 结 
果 。 候 选 生成 网 络 结构 如 图 7-1 所 示 。 


对 于 给 定 用 户 ， 其 想 要 观看 视频 的 概率 预测 模型 为 : 


=i|u)= 


预测 


第 一 个 视频 的 特征 


训练 
所 有 视频 分 类 结 末 


Softmax 


所 有 视频 的 特征 用 户 兴趣 特征 


非 线性 多 层 感 知 船 (MLP) 


取 topk 


第 TT 


兴趣 视频 特征 ] 兴趣 搜索 特征 上 \ 用户 地 理 位 置 特征 上 |( 用 户 性 别 视频 发 布 时 间 
a Kk 


取 平 均 取 平 均 


观看 历史 视频 上 映射 历史 搜索 词 映 射 
图 7-1 候选 生成 网 络 结构 
上 式 中 ，V 为 视频 库 集合 ，w 为 此 刻 用 户 要 观看 的 视频 ，vi 为 视频 库 中 第 i 个 视频 的 特征 表示 ，u 为 用 户 U 的 特征 表示 。vu 为 长 度 相等 的 向 量 ， 对 两 者 做 点 积 操作 可 以 通过 全 连接 层 实 现 。 
softmax 分 类 的 类 别 数 非常 多 ， 为 了 保证 一 定 的 计算 效率 ， 在 运行 网 络 时 需要 采用 以 下 策略 : 
1) 在 训练 阶段 ， 对 负 样 本 类 别 进行 采样 ， 降 低 实际 计算 类 别 的 规模 至 数 干 。 


2) 在 推荐 预测 阶段 ， 不 采用 Softmax 的 归 一 化 计算 分 类 方式 (不 影响 结果 ) ， 将 计算 类 别 得 分 问题 简化 为 点 积 (Dot Product) 空间 中 的 最 近邻 (Nearest Neighbor) 搜索 问题 ， 取 与 用 户 兴 趣 特 征 u 
最 相近 的 k 个 视频 作为 候选 的 预测 结果 。 


2. 排 序 网 络 (Ranking Network) 


排序 网 络 的 结构 类 似 于 候选 生成 网 络 ， 它 的 优势 是 对 候选 预测 结果 进行 了 更 细致 的 得 分 计算 和 结果 排序 。 类 比 于 传统 广告 排序 方法 中 的 特征 提取 ， 排 序 网 络 也 构造 了 大 量 用 于 视频 排序 的 相关 特征 (如 
视频 ID、 上 次 观看 时 间 等 ) 。 特 征 处 理 与 候选 生成 网 络 的 不 同 之 处 在 于 排序 网 络 的 输出 端 是 一 个 加 权 逻 辑 回归 模型 ， 它 计算 所 有 候选 视频 的 预测 得 分 ， 按 分 值 大 小 排序 后 将 分 值 较 高 的 一 些 视频 推荐 给 用 
Fs 


7.3 ”深度 学 习 推 荐 方法 


7.3.1 _ YouTube 的 深度 神经 网 络 推荐 系统 


YouTube 是 世界 上 最 大 的 视频 上 传 、 分 享 和 发 现 网 站 ，YouTube 推 荐 系统 为 超过 10 亿 用 户 从 不 断 增长 的 视频 库 中 推荐 个 性 化 的 内 容 ， 系 统 由 两 个 神经 网 络 组 成 ， 分 别 是 候选 生成 网 络 和 排序 网 络 。 候 选 
生成 网 络 从 百 万 量 级 的 视频 库 中 生成 上 百 个 候选 ， 排 序 网 络 对 候选 进行 打分 排序 ， 输 出 排名 最 高 的 数 十 个 结果 。 下 面 将 分 别 对 上 述 两 个 神经 网 络 进行 介绍 。 


1. 候 选 生 成 网 络 (Candidate Generation Network) 


候选 生成 网 络 的 核心 思想 是 将 推荐 问题 建 模 为 一 个 类 别 数 极 大 的 多 分 类 问题 。 以 YouTube 视 频 推 荐 系统 为 例 ， 对 于 一 个 YouTube 用 户 ， 可 以 选用 的 类 别 包 括 以 下 两 种 : 一 是 历史 行为 信息 ， 包 括 用 户 观 
看 历史 (视频 ID) 、 搜 索 词 记录 (search tokens) 等 ; 二 是 用 户 属性 信息 ,包括 人 口 学 信息 (如 地 理 位 置 、 用 户 登录 设备 ) 、 二 值 特征 (如 性 别 、 是 否 登录 ) 和 连续 特征 (如 用 户 年 龄 ) 等。 通过 上 述 分 类 
类 别 ， 推 荐 系统 对 视频 库 中 所 有 视频 分 别 进行 分 类 ， 得 到 每 一 类 的 分 类 结果 ( 即 每 一 个 视频 的 推荐 概率 ) ， 最终 输出 概率 较 高 的 几 百 个 视频 。 


下 面 介绍 候选 生成 网 络 的 主要 运行 过 程 。 首 先 ， 将 用 户 历 史 行 为 信息 映射 为 向 量 后 取 平 均值 得 到 固定 长 度 的 表示 ; 同时 ， 输 入 用 户 属性 信息 中 的 人 口 学 信息 ， 并 将 二 值 特征 和 连续 特征 进行 归 一 化 处 
理 ， 用 以 优化 新 用 户 的 推荐 效果 。 接 下 来 ， 将 所 有 特征 表示 拼接 为 一 个 特征 向 量 ， 并 输入 给 非 线形 多 层 感 知 器 (MLP， 功 能 介绍 详 见 第 6 章 内 容 ) 处 理 。MLP 的 输出 分 别 流向 训练 和 预测 两 个 模块 。 在 训练 
模块 ，MLP 的 输出 流向 Softmax 分 类 层 ， 与 所 有 视频 特征 一 同 做 分 类 ; 在 预测 模块 ， 计 算 MLP 的 输出 〈 用 户 的 综合 特征 ) 与 所 有 视频 的 相似 度 ， 取 相似 度 最 高 的 K 个 输出 视频 作为 候选 生成 网 络 的 预测 结 
果 。 候 选 生成 网 络 结构 如 图 7-1 所 示 。 


对 于 给 定 用 户 ， 其 想 要 观看 视频 的 概率 预测 模型 为 : 
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观看 历史 视频 上 映射 历史 搜索 词 映 射 
图 7-1 候选 生成 网 络 结构 
上 式 中 ，V 为 视频 库 集合 ，w 为 此 刻 用 户 要 观看 的 视频 ，vi 为 视频 库 中 第 i 个 视频 的 特征 表示 ，u 为 用 户 U 的 特征 表示 。vu 为 长 度 相等 的 向 量 ， 对 两 者 做 点 积 操作 可 以 通过 全 连接 层 实 现 。 
Softmax 分 类 的 类 别 数 非常 多 ， 为 了 保证 一 定 的 计算 效率 ， 在 运行 网 络 时 需要 采用 以 下 策略 : 
1) 在 训练 阶段 ， 对 负 样 本 类 别 进行 采样 ， 降 低 实际 计算 类 别 的 规模 至 数 干 。 


2) 在 推荐 预测 阶段 ， 不 采用 Softmax 的 归 一 化 计算 分 类 方式 (不 影响 结果 ) ， 将 计算 类 别 得 分 问题 简化 为 点 积 (Dot Product) 空间 中 的 最 近邻 (Nearest Neighbor) 搜索 问题 ， 取 与 用 户 兴 趣 特 征 u 
最 相近 的 k 个 视频 作为 候选 的 预测 结果 。 


2. 排 序 网 络 (Ranking Network) 


排序 网 络 的 结构 类 似 于 候选 生成 网 络 ， 它 的 优势 是 对 候选 预测 结果 进行 了 更 细致 的 得 分 计算 和 结果 排序 。 类 比 于 传统 广告 排序 方法 中 的 特征 提取 ， 排 序 网 络 也 构造 了 大 量 用 于 视频 排序 的 相关 特征 (如 
视频 ID、 上 次 观看 时 间 等 ) 。 特 征 处 理 与 候选 生成 网 络 的 不 同 之 处 在 于 排序 网 络 的 输出 端 是 一 个 加 权 逻 辑 回归 模型 ， 它 计算 所 有 候选 视频 的 预测 得 分 ， 按 分 值 大 小 排序 后 将 分 值 较 高 的 一 些 视频 推荐 给 用 
a 


7.3.2 ”融合 推荐 系统 


融合 推荐 系统 是 一 个 应 用 深度 神经 网 络 结构 的 个 性 化 电影 推荐 系统 ， 它 融合 了 用 户 和 电影 的 多 项 特征 ， 通 过 深度 神经 网 络 处 理 后 进行 用 户 喜 爱 电影 的 预测 和 推荐 。 下 面 介 绍 融合 推荐 模型 中 应 用 的 重要 


技术 ， 并 详细 描述 融合 推荐 模型 的 运行 过 程 。 
1. 词 向 量 (Word Embedding) 


词 向 量 技术 是 推荐 系统 、 搜 索引 警 、 广 告 系统 等 互联 网 服务 必 不 可 少 的 基础 技术 ， 多 用 于 这 些 服务 的 自然 语言 处 理 过 程 中 。 在 这 些 互 联网 服务 里 ， 一 个 常见 任务 是 比较 两 个 词 或 者 两 段 文 本 之 间 的 相关 
性 ， 要 完成 这 个 任务 就 需要 把 词 或 文字 表示 成 计算 机 能 识别 和 处 理 的 “语言 ”。 如 果 在 机 器 学 习 领 域 里 选择 问题 的 解决 方法 ， 通 常会 选择 词 向 量 模型 。 通 过 词 向 量 模型 可 将 一 个 词语 映射 为 一 个 维度 较 低 的 
实数 向 量 (Embedding Vector) ， 例 如 : 


embedding (情人 节 ) =[0.3，4.2，-1.5，…'] 

embedding (玫瑰 花 ) =[0.2，5.6，-2.3，…] 

在 这 组 映射 得 到 的 实数 向 量 表 示 中 ， 两 个 语义 (或 用 法 ) 上 相似 的 词 对 应 的 词 向 量 应 该 “更 像 ”， 所 以 “情人 节 ” 和 “玫瑰 伦 ” 这 两 个 表面 看 来 不 相关 的 词 因 其 语 境 的 相关 性 而 有 较 高 的 相似 度 。 
2. 文 本 卷 积 神经 网 络 (Text Convolutional Neural Networks) 


第 6 章 对 卷 积 神经 网 络 做 了 系统 全 面 的 介绍 ， 并 对 其 在 计算 机 视觉 领域 中 的 应 用 进行 了 详细 叙述 。 卷 积 神经 网 络 可 以 有 效 提取 、 抽 象 得 到 高 级 的 特征 表示 。 实 践 表 明 ， 卷 积 神经 网 络 能 高 效 地 处 理 图 像 问 
题 和 文本 问题 。 


卷 积 神经 网 络 主要 由 卷 积 层 (Convolution Layer) 、 池 化 层 (Pooling Layer) 和 全 连接 层 组 成 ， 其 应 用 及 组 合 方式 灵活 多 变 ， 种 类 繁多 。 在 融合 推荐 模型 中 ， 选 择 文本 卷 积 神经 网 络 用 于 学 习 电 影 名 
称 的 表示 ， 网 络 结构 如 图 7-2 所 示 。 
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将 一 句 话 表示 为 由 多 个 不 同 大 小 的 时 间 维 上 的 ”全 连接 层 
n 行列 的 矩阵 郑 积 核 构 成 的 卷 积 层 最 大 池 化 
图 7-2” 卷 积 神经 网 络 文本 分 类 模型 
假设 待 处 理 句 子 的 长 度 为 n， 其 中 第 i 个 词 的 词 向 量 为 xiE RK，k 为 维度 大 小 。 


1) 词 向 量 拼接 操作 : 将 每 h 个 词 向 量 拼接 成 一 个 大 小 为 h 的 词 窗口 ， 记 为 xj. j+h-1， 它 表示 词 向 量 序列 xj，xi+1，http://www.hzcourse.comy/resource/readBook? 


path=/openresources/teach ebook/uncompressed/17642/OEBPS/Text/...，xi+h-1 的 拼接 ， 其 中 ，i 表 示 词 窗口 中 第 一 个 词 在 待 处 理 句子 中 的 位 置 ， 取 值 范 围 从 1 到 n-h+1,，xi: i+h-1ERNK, 


2) 卷 积 操作 : 把 卷 积 核 we RN 作用 于 包含 h 个 词 的 窗口 xi. j+h-1， 得 到 特征 ci=f (wxi; kh-1+b) ， 其 中 beR 为 偏 置 项 (bias) ， 信 非 线性 激活 函数 ， 如 sigmoid 函 数 。 将 卷 积 核 作用 于 待 处 理 句子 中 


所 有 的 词 窗口 x1: h，x2: h+1, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17642/OEBPS/Text/…，xn-h+1: n， 生 成 一 个 特征 图 (Feature 


n—h+tl 


Map) : 


C=| C1, C2,..., Cn_n+1|,c E 


3) 池 化 操作 : 对 特征 图 采用 时 间 维 度 上 的 最 大 池 化 (Max Pooling Over Time) 操作 ， 得 到 与 此 卷 积 核对 应 的 待 处 理 句子 的 特征 C， 它 是 特征 图 中 所 有 特征 的 最 大 值 : 


3. 系 统 模型 概览 


融合 推荐 系统 模型 如 图 7-3 所 示 ， 它 包括 以 下 步 又: 


1) 模型 输入 : 使 用 用 户 特征 和 电影 特征 作为 神经 网 络 的 输入 。 用 户 特 征 融合 了 4 类 属性 特征 信息 ， 分 别 是 用 户 ID、 性 别 、 


职业 和 年 龄 。 电 影 特 征 融合 了 3 类 属性 特征 信息 ， 分 别 是 电影 1D、 
和 电影 名 称 。 
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2) 用 户 特征 处 理 : 将 用 户 的 4 类 属性 特征 信息 分 别 映射 为 256 维 的 向 量 表 示 ， 然 后 分 别 输入 全 连接 层 并 将 输出 结果 相 加 。 


3) 电影 特征 处 理 : 将 电影 1D 以 类 似 用 户 属性 特征 信息 的 方式 进行 处 理 ， 电 影 类 型 ID 直接 转换 为 向 量 的 形式 ， 电 影 名 称 用 文本 卷 积 神经 网 络 输出 其 定 长 向 量 表示 ， 然 后 将 3 个 属性 的 特征 向 量 分 别 输入 全 
连接 层 并 将 输出 结果 相 加 。 
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4) 得 到 用 户 特 征 和 电影 特征 的 向 量 表示 后 ， 计 算 二 者 的 余弦 相似 度 作 为 推荐 系统 的 预测 分 数 。 最 后 ， 用 该 预测 分 数 和 用 户 真 实 评分 的 差异 的 平方 作为 该 回归 模型 的 成 本 函数 。 
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图 7-3 ”融合 推荐 模型 


7.4 个 性 化 推荐 系统 在 PaddlePaddle 上 的 实现 
7.4.1 ”数据 准备 


本 节 将 以 MovieLens 百 万 数据 集 (MovieLens-1M ) 为 基础 数据 集 实现 基于 特征 融合 的 个 性 化 电影 推荐 系统 。MovieLens-1M 数 据 集 包 含 了 6 000 位 用 户 对 4 000 部 电影 的 1 000 000 条 评价 (评分 范围 
1~5 分 ， 均 为 整数 ) ， 由 GroupLens Research 实 验 室 搜 集 整 理 。 


项 目的 初始 化 过 程 如 代码 清单 7-1 所 示 。PaddlePaddle 在 API 中 提供 了 自动 加 载 数 据 的 模块 ， 数 据 模块 为 paddle.dataset.movielens。 在 原始 数据 中 包含 用 户 的 特征 数据 、 电 影 的 特征 数据 和 用 户 对 电 
影 的 评分 。 


代码 清单 7-1 初始 化 


import paddle. V2 as paddle 

with gpu = os.getenv('WITH GPU', '0') != "0" 
# 初始 化 ， 设置 为 不 使 用 GPU 

paddle.init (use gpu=with gpu) 


显示 打印 出 的 某 条 电影 特征 数据 ， 如 代码 清单 7-2 所 示 。 


代码 清单 7-2 打印 某 条 电影 特征 数据 


movie info = paddle.dataset.movielens.movie info() 


print movie info.values() [0] 


如 果 想 要 获取 电影 特征 数据 ， 可 以 打印 任意 一 条 电影 特征 数据 ， 打 印 结 果 如 下 所 示 。 结 果 表示 ， 电 影 的 ID 是 1， 标 题 是 《Toy Story》， 该 电影 被 分 到 三 个 类 别 中 。 这 三 个 类 别 是 动画 、 儿 童 、 喜 剧 。 


<movieinfo id(1),="" title (toy="" story="" ),="" categories (['animation',="" "children's",="" 'comedy'])=""> 


显示 打印 出 的 某 条 用 户 特 征 数据 ， 如 代码 清单 7-3 所 示 。 


代码 清单 7-3 ”打印 某 条 用 户 特征 数据 


user info = paddle.dataset.movielens.user info() 
print user info.values () [0] 


同 理 ， 如 果 想 要 获取 用 户 特 征 数据 ， 可 以 打印 任意 一 条 用 户 特征 数据 ， 打 印 结果 如 下 所 示 。 结 果 表 示 ， 该 用 户 ID 是 1， 女 性 ,年龄 比 18 岁 还 小 ， 职 业 ID 是 10。 其 中 年 龄 属性 和 职业 属性 分 别 用 不 同 的 数 
字 对 应 不 同 的 属性 值 。 


<userinfo id(1),="" gender (f),="" age(1),="" job(10)=""> 


显示 打印 出 的 第 一 条 训练 数据 ， 如 代码 清单 7-4 所 示 。 


代码 清单 7-4 ”打印 第 一 条 训练 数据 


train set creator = paddle.dataset.movielens.train () 

train sample = ee set creator () ) 

uid = train sample 

# 按 用 户 信息 慎 克 家族 请 定 Iiov ia 的 位 轩 

mov id = train ,sample [len (user . infol[uid] .value())] 

print "User %s rates Movie %s with Score %s"%(user info[uid], movie infol[mov id], train sample[-1]) 


而 对 于 每 一 条 训练 /测试 数据 ， 格 式 均 为 < 用 户 特征 >+< 电 影 特 征 >+ 评 分 。 例 如 ， 打 印 得 到 第 一 条 训练 数据 : 用 户 1 对 电影 1193 的 评价 为 5 分 。 


打印 出 的 结果 如 下 : 


User <userinfo id(1),="" genaqer (f),="" age(1),="" job(10)=""> rates Movie <movieinfo id(1193),="" title (one="" flew="" over="" the="" cuckoo's="" nest="" ), 
categories(['drama'])=""> with Score [5.0] 


7.4 个 性 化 推荐 系统 在 PaddlePaddle 上 的 实现 


7.4.1 ”数据 准备 


本 节 将 以 MovieLens 百 万 数据 集 (MovieLens-1M) 为 基础 数据 集 实现 基于 特征 融合 的 个 性 化 电影 推荐 系统 。MovieLens-1M 数 据 集 包 含 了 6 000 位 用 户 对 4 000 部 电影 的 1 000 000 条 评价 (评分 范围 
1~5 分 ， 均 为 整数 ) ， 由 GroupLens Research 实 验 室 搜集 整理 


项 目的 初始 化 过 程 如 代码 清单 7-1 所 示 。PaddlePaddle 在 API 中 提供 了 自动 加 载 数据 的 模块 ， 数 据 模块 为 paddle.dataset.movielens。 在 原始 数据 中 包含 用 户 的 特征 数据 、 电 影 的 特征 数据 和 用 户 对 电 
影 的 评分 


代码 清单 7-1 初始 化 


import paddle.v2 as paddile 

with gpu = os.getenv('WITH GPU', '0') != '0' 
# 初始 化 ， 设 置 为 不 使 用 GPU 
paddle.init (use gpu=with gpu) 


显示 打印 出 的 某 条 电影 特征 数据 ， 如 代码 清单 7-2 所 示 。 


代码 清单 7-2 打印 某 条 电影 特征 数据 


movie info = paddle.dataset.movielens.movie info () 
print movie info.values() [0] 


如 果 想 要 获取 电影 特征 数据 ， 可 以 打印 任意 一 条 电影 特征 数据 ， 打 印 结果 如 下 所 示 。 结 果 表 示 ， 电 影 的 ID 是 1， 标 题 是 《Toy Story》， 该 电影 被 分 到 三 个 类 别 中 。 这 三 个 类 别 是 动画 、 儿 童 、 喜 剧 。 


<movieinfo id(1),="" title (toy="" story="" ),="" categories(['animation',="" "children's",="" 'comedy'])=""> 


显示 打印 出 的 某 条 用 户 特征 数据 ， 如 代码 清单 7-3 所 示 。 


代码 清单 7-3 ”打印 某 条 用 户 特征 数据 


user info = paddle.dataset.movielens.user info() 
print user info.values () [0] 


同 理 ， 如 果 想 要 获取 用 户 特征 数据 ， 可 以 打印 任意 一 条 用 户 特 征 数据 ， 打 印 结果 如 下 所 示 。 结 果 表 示 ， 该 用 户 ID 是 1， 女 性 ， 年 龄 比 18 岁 还 小 ， 职 业 ID 是 10。 其 中 年 龄 属性 和 职业 属性 分 别 用 不 同 的 数 
字 对 应 不 同 的 属性 值 。 


<userinfo id(1),="" gender (f),="" age(1),="" job(10)=""> 


显示 打印 出 的 第 一 条 训练 数据 ， 如 代码 清单 7-4 所 示 。 


代码 清单 7-4 ”打印 第 一 条 训练 数据 


train set creator = paddle.dataset.movielens.train() 

train sample = next (train set Creator () ) 

uid = on sample[0] 

# 按 用 户 信息 值 的 长 度 确定 mov_ ig 的 位 置 

mov id = train sample[len (user info[uid] .value())] 

print "User %s rates Movie %s with Score %s"%(user info[uid], movie info[mov id], train sample[-1]) 


而 对 于 每 一 条 训练 /测试 数据 ， 格 式 均 为 < 用 户 特征 > + < 电影 特征 > + 评分 。 例 如 ， 打 印 得 到 第 一 条 训 | 练 类 平价 为 5 分 。 
打印 出 的 结果 如 下 : 
User <userinfo id(1),="" gengder (f),="" age(1),="" job(10)=""> rates Movie <movieinfo id(1193),="" title (one="" flew="" over="" the="" cuckoo's="" nest="" ),="" 


categories(['drama'l])=""> with Score [5.0] 


7.4.2 ”模型 配置 


下 面 开 始 根据 输入 数据 的 形式 配置 模型 。 对 于 每 个 用 户 ， 系 统 输 入 4 维特 征 ， 其 中 包括 user id、gender id、age id、job id。 这 几 维 特征 均 是 简单 的 整数 值 。 为 方便 神经 网 络 进 行 处 理 ， 本 书 借鉴 自然 
语言 处 理 中 的 语言 模型 ， 将 这 几 维 离散 的 整数 值 变 换 成 词 向 量 并 取出 ， 分 别 形成 usr emb、usr gender emb、usr age emb、usr job emb。 网 络 配置 如 代码 清单 7-5 所 示 。 


代码 清单 7-5 “用户 特征 配置 


# 读 取 用 户 编号 信息 (user _ ig) 
uid = paddle.1layer.data ( 
name='user id', 
type=paddle.data type.integer Value ( 
pagddle.dataset .movielens.max user id() + 1)) 
# 将 用 户 编号 变换 为 对 应 词 向 量 
usr emb = paddle.1layer.embedding (input=uid size=32) 
# 将 用 户 编号 对 应 词 向 量 输入 到 全 连接 层 


usr fc = paddle.layer.fc (input=usr emb, size=32) 


# 读 取 用 户 性 别 类 别 编号 信息 (gender_id) 并 做 处 理 同 上 ) 
UST gender id = paddle.layer.datal( 
name='gender id', type=paddle.data type.integer value (2)) 
usr gender emb = Paddle. layer .embedding (input=usr gender id, size=16) 
usr gender fc = paddle.layer.fc (input=usr gender emb, size=16) 


# 读 取 用 户 年 龄 类 别 编号 信息 (age _ id) 并 做 处 理 〈 同 上 ) 

usr age id = paddle.layer.datal 
name='age id', 
type=paddle. ce , type.integer value 

len (paddle.dataset .movielens.age table))) 

usr age emb = paddle.1layer.embedding (input=usr age id, size=16) 

usr age fc = paddle.layer.fc (input=usr age emb, size=16) 


# 读 取 用 户 职业 类 别 编 号 信息 ‘job ig)》 并 做 处 理 ( 同 上) 
usr job id = paddle.1layer.data( 
name='job id', 
type=paddle.data type.integer Value ( 
paddle.dataset .movielens.max job id() + 1)) 
usr Job emb = paddle.layer.embedding (input=usr - job _ id, size=16) 
usr job fc = = paddle.layer.fc (input=usr job emb, size=16) 


特 和 村 和 


然后 ， 对 于 所 有 的 用 户 特 征 均 输 入 到 一 个 全 连接 层 (fc) 中 ， 将 所 有 特征 融合 为 


纪 清 单 7-6 所 示 。 


代码 清单 7-6 用户 融合 特征 配置 


# 所 有 的 用 户 特 征 再 输入 到 一 个 全 连接 层 中 ， 完 成 特征 融合 
usr combined features = paddle.1layer.fc!( 
input=[usr fc, usr gender fc, usr age fc, usr job fc], 
size=200, 
act=paddle.activation.Tanh () ) 


进而 ， 我 们 对 每 一 个 电影 特征 都 做 了 类 似 的 变换 ， 网 络 配置 如 代码 清单 7-7 所 示 。 电 影 1D 和 电影 类 型 分 别 映射 到 其 对 应 的 特征 隐 层 。 电 影 名 称 是 一 个 词语 序列 ， 本 代码 中 用 到 的 电影 名 信息 变量 
movie title 是 词语 序列 对 照 词 典 转化 成 的 数字 序列 表示 。movie_title 在 输入 卷 积 层 后 ， 将 得 到 每 个 时 间 窗 口 的 特征 (序列 特征 ) ， 然 后 通过 在 时 间 维 度 降 采 样 得 到 固定 维度 的 特征 ， 整 个 过 程 在 


sequence_conv_ pool 中 实现 。 最 后 再 将 电影 的 特征 融合 进 mov_ combined features 中 。 
代码 清单 7-7 电影 融合 特征 配置 


# 读 取 电 影 编号 信息 (movie id) 
mov id = paddle.layer.datal 
name='movie id', 
type=paddle.data type.integer Value ( 
paddle.dataset .movielens.max movie id() + 1)) 
# 将 影 编号 变换 为 对 应 词 向 量 
ImOV ede = layer .embedding (input=mov id, size=32) 
 # 将 电影 编号 对 应 词 向 量 输入 到 全 连接 层 


mov fc = paddle.layer.fc (input=mov emb, size=32) 


# 读 取 电 影 类 别 编号 信息 (category_id) 
mov categories = paddle.layer.datal( 
name='category id', 
type=paddle.data type.sparse binary Vector ( 
2 dataset .movielens.movie categories () ) ) ) 
# 将 电影 编号 信息 输入 到 全 连接 


mov categories hidden = paddle.layer.fc (input=mov categories, size=32) 


Ml 


# 读 取 电 影 名 信息 (movie title) 
mov title id = paddle.layer.datal 
name="'movie title', 

MoE Ee type.integer value sequence (len (movie title dict))) 

# 影 名 变换 为 对 应 词 向 量 

mOV 。 人 = paddle.1layer.embedding (input=mov _title id, size=32) 
# 将 电影 名 对 应 词 向 量 输入 到 卷 积 网 络 生 成 电影 名 时 序 特 征 
mov title conv = paddle.networks.sequence conv Pool ( 
input=mov title emb, hidden size=32, context len=3) 


# 所 有 的 电影 特征 再 输入 到 一 个 全 连接 层 中 ， 完 成 特征 融合 

mov_ combined features = paddle.layer.fc( 
input=[mov fc, mov categories hidden, mov title conv], 
size=200, 
act=paddle.activation.Tanh () ) 


我 们 使 用 余弦 相似 度 计算 用 户 特 征 与 电影 特征 的 相似 性 ， 并 将 这 个 相似 性 拟 合 (回归 ) 到 用 户 评分 上 。cost 即 为 本 系统 的 优化 目标 ， 也 可 认为 是 本 网 络 模型 的 拓扑 结构 ， 代 码 如 代码 清单 7-8 所 示 。 


代码 清单 7-8 ”确定 cost 


# 计算 用 户 融合 特征 和 电影 融合 特征 的 余弦 相似 度 
inference = paddle.layer.cos sim( 
a=usr combined features, b=mov combined 


# 定义 成 本 函数 为 均 方 误差 函数 
cost = paddle.1layer.square error Cost ( 
input=inference, 
label=paddle.1layer.datal( 
name='score', type=paddle.data type.dense vector(1))) 


features, size=1l, scale=5) 


7.4.3 


模型 训 尾 


训练 模型 之 前 ， 需 要 先 定义 参数 ， 定 义 方法 如 代码 清单 7-9 所 示 。parameters 是 模型 的 所 有 参数 集合 ， 
数 名 称 ， 这 里 参数 名 称 是 自动 生成 的 。 当 然 ， 也 可 以 指定 每 一 个 参数 名 称 ， 方 便 日 后 维护 。 


代码 清单 7-9 ”参数 定义 


# 利用 cost 创 建 parameters 
parameters = paddle.parameters.create (cost) 


在 训练 过 程 中 ， 系 统 直接 使 用 PaddlePaddle 提 供 的 数据 集 读 取 程 序 。paddle.dataset.movielens.train () 和 paddle.dataset.movielens.test () 分 别 读 取 训 | 练 和 预测 数据 集 ， 并 且 通 
每 一 个 数据 和 数据 层 (data_layer) 的 对 应 关系 。 例 如 ， 代 码 清单 7-10 中 的 feeding 表 示 : 对 于 数据 层 user id， 使 用 了 reader 中 每 一 条 数据 的 第 0 个 


代码 清单 7-10 feeding 定义 


# 数据 层 和 数组 索引 上 映射， 用 于 trainet 训 练 时 读 取 数据 


feeding = { 


它 是 一 个 Python 的 dict 数 据 ， 存 储 这 个 网 络 中 的 所 有 参数 名 称 。 因 为 此 前 定义 模型 时 没有 指定 参 


过 feeding 来 指定 


元 素 ，gender id 数 据 层 使 用 了 第 1 个 元 素 ， 以 此 类 推 。 


"user id': 0， 
'gender id': 1, 
'age id': 2, 
"Tob ia 3 


'movie id': 4, 
'category id': 5, 
'movie title': 6, 
'score': 7 


训练 过 程 是 完全 自动 的 ， 在 PaddlePaddle 中 定义 事件 处 理 器 event_handler 以 观察 训练 过 程 或 进行 测试 等 
数 绘制 了 成 本 曲线 图 ， 相 应 代码 如 代码 清单 7-11 ~ 7-13 所 示 。 成 本 曲线 如 图 7-4 所 示 。 


代码 清单 7-11 event_handler 定 义 


def event handler (event): 

事件 处 理 器 ， 可 以 根据 训练 过 程 的 信 ， 
Args: 

event -- 事件 对 象 ， 包 含 

Return: 


妃 做 相应 操作 


| 中 


售 event .pass id，event.batch id，event.cost 等 信息 


global step 
if isinstance (event, Dao le event .EndIteration) 
# 每 100 个 batch 输 出 一 条 记录 ， We batch 编 号 和 对 应 成 本 值 
if event.batch id $ 100 = 

print "Pass %d Batch sa Cost S22" -1 

event .pass id, event.batch id, event.cost) 
# 添加 训练 装 据 的 cost 给 图 数据 

train costs.append (event .cost) 
train step.append (step) 

step += 1 
f isinstance (event, paddle.event.EndPass): 

# 保存 参数 至 文件 

with open('params pass %d.tar' g event.pass id, 'w') as f: 
trainer.save parameter to tar ( 工 ) 


# 利用 测试 数据 进行 测试 

result = trainer.test (reader=paddle.batch ( 
pagddle.dataset .movielens.test(), batch size=128)) 

print "Test with Pass %d, Cost Sf" % ( 
event.pass id, result.cost) 

# 添加 测 试 数据 的 5os4 绽 图 数据 

test costs.append (result.cost) 

test step.append (step) 


PF- 


代码 清单 7-12 ”绘制 曲线 图 


def plot costs(train costs, train step, test costs, test step): 


利用 costs 展 示 模 型 的 训练 测试 曲 


Args: 

train costs -- 记录 了 训练 过 程 的 cost 变 化 的 1ist， 每 100 次 迭代 记录 一 次 
train step -- 记录 了 训练 过 程 迭 代 次 数 的 11sft 
test costs -- 记录 了 测试 过 程 的 cost 变 化 的 1ist， 每 3500 次 迭代 记录 一 次 
test step -- 记录 了 测试 过 程 迭 代 次 数 的 11sft 


Return: 


党 


train costs = np.squeeze (train costs) 
test costs = np.squeeze (test costs) 


[七 .Show () 
t.savefig(‘train test cost.png’) 


plt.figure() 

plt.plot (train step,train costs,1label="Train Cost") 
plt.plot (test step,test costs,label="Test Cost") 
plt.ylabel ('cost') 

plt.xlabel ('iterations (step)') 
plt.title("train-test-cost") 

plt.legend () 

P- 

pl 


代码 清单 7-13 ”训练 过 程 定义 


模型 训练 
pagddle.batch (reader (), batch size=256): 


。 此 外 ， 我 们 在 event_handle 中 记录 了 训练 成 本 和 测试 成 本 变化 的 数值 ， 并 使 用 plot_costs 浮 


表示 从 打 乱 的 数 和 


paddle.reader. shuf 


居中 再 取出 batch size=256 大 小 的 数据 进行 一 次 迭代 训练 
fle (train(), buf size=8192): 


表示 trainer 从 train () 这 个 reader 中 读 取 了 buf size=8192 大 小 的 数据 并 打 乱 顺序 


event handler: 事件 管理 机 制 ， 


可 以 自 定 义 event_handler， 根 据 事件 信息 作 相 应 的 操作 


feeding: 


num Passes: | 

定义 训练 的 迭代 次 数 

trainer.train( 
reader=paddle.batch( 


下 方 代码 中 选择 的 是 event handler plot 函 数 
用 到 了 之 前 定义 的 feeding 索 引 ， 将 数据 层 信 息 输 入 trainer 


paddle.reader.shu 


fflel 


paddle.dataset .movielens.train(), buf size=8192), 


batch size=256)， 


event handler=event handler plot, 


feeding=feeding, 
num passes=10) 


10 


0 


7.4.4 ”模型 测试 


训练 -测试 -成 本 


5000 10000 15000 20000 25000 
达 代 ( 步 ) 


图 7-4 成 本 曲线 图 


完成 模型 训练 之 后 ， 可 以 使 用 任意 一 个 用 户 ID 和 电影 ID 预测 该 用 户 对 该 电影 的 评分 ， 从 而 验证 系统 模型 。 示 例 程序 如 代码 清单 7-14 所 示 。 


代码 清单 7-14 ”评分 预测 


训练 成 本 
一 一 一 测试 成 本 


30000 


35000 


global PARAMETERS 


# 读 取 模 型 参数 ，"params _ Pass _9.tar" 为 第 10 次 迭代 训练 出 的 模型 参数 


if not os .path.exists 
print ("Params 
return 


with open('params pass 9.tar', 'r') as f: 
RAMETERS = paddle.parameters.Parameters.from tar(f 
中 日 


PA 
# 定义 用 户 编号 值 和 电影 编号 值 
user id = 234 
movie id = 345 
# 根据 已 定义 的 用 户 、 


user = paddle.dataset 


( "Params pass 9.tar'): 
file doesn't exists.") 


-一 


电影 编号 值 从 movielens 数 据 集 中 读 取 数据 信息 


.movielens.user info() [user id] 


movie = paddle.dataset .movielens.movie info() [movie id] 


# 存储 用 户 特 征 和 电影 特征 


feature = user.value() + movie.value() 


# 复制 feeqing 值 ， 并 删除 序列 中 的 得 分 项 


infer dict = copy.copy (feeding) 


del infer dict['score 


# 预测 指定 用 户 对 指定 电影 的 喜好 得 分 值 


prediction = padqaqle.infer( 
output layer=inference, 


parameters= PARAMETERS, 


input=[feature], 
feeding=infer dict) 


score = (prediction[0] [0] + 5.0) / 2 
print "[Predict] User %d Rating Movie %d With Score %$.2f"% (user id, movie id, score) 


打印 的 预测 结果 如 下 : 


[Predict] User 234 Rating Movie 345 With Score 4.46 


本 章 小 结 


推荐 系统 几乎 涵盖 了 电 商 系统 、 社 交 网 络 、 广 告 推荐 、 搜 索引 擎 等 领域 的 方方面面 ， 而 在 图 像 处 理 、 自 然 语言 处 理 等 领域 已 经 发 挥 重要 作用 的 深度 学 习 技术 ， 也 必 将 会 在 推荐 系统 领域 大 放 异 彩 。 本 章 
介绍 了 传统 的 推荐 方法 和 典型 的 深度 神经 网 络 推荐 模型 ， 并 以 电影 推荐 为 例 ， 使 用 PaddlePaddle 训 练 了 一 个 个 性 化 推荐 神经 网 络 模型 ， 代 码 文件 可 以 在 Github 的 PaddlePaddle 主 页 中 找到 。 


本 章 的 参考 代码 在 https://github.com/BaiduOSS/DeepLearningAndPaddleTutorial 下 lesson7 子 目录 下 。 


第 8 草 "个 性 化 推荐 的 分 布 式 实现 


上 一 章 主要 讲述 了 基于 PaddlePaddle 的 深度 学 习 推 荐 系统 在 单机 上 的 实现 ， 系 统 实现 的 基础 数据 集 是 拥有 100 万 条 电影 评分 数据 的 MovieLens-1M 数 据 集 。 然 而 在 实际 生产 中 ， 用 于 模型 训练 的 数据 规 
模 会 达到 十 亿 、 百 亿 旋 至 万 亿 ， 如 此 大 规模 的 数据 如 果 在 单机 上 进行 训练 需要 人 花费 的 时 间 是 难以 忍受 的 ， 所 以 用 户 迫 切 需要 将 深度 学 习 推 荐 模型 部 署 在 分 布 式 集群 环境 上 并 行 训练 以 提高 效率 。 


PaddlePaddle Cloud 是 百度 云 为 国内 深度 学 习 使 用 者 提供 的 一 整套 集群 环境 ， 是 建构 在 Baidu CCE (容器 引擎 ) 之 上 的 深度 学 习 环境 。 将 大 规模 深度 学 习 任务 部 署 在 Paddlepaddle Cloud 集 群 上 ， 可 
以 高 效率 、 低 成 本 、 安 全 可 靠 地 管理 和 维护 分 布 式 的 PaddlePaddle 任 务 。 本 章 将 介绍 PaddlePaddle Cloud 的 基本 架构 和 具体 用 法 ， 并 结合 第 7 章 中 介绍 的 基于 PaddlePaddle 的 深度 学 习 推 荐 系统 的 具体 实 
现 ， 讲 述 如 何在 PaddlePaddle Cloud 上 实现 分 布 式 深度 学 习 推荐 系统 。 


学 完 本 章 ， 和 希望 读者 能 够 掌握 以 下 知识 点 : 
(1) PaddlePaddle Cloud 的 使 用 方法 ， 包 括 集群 创建 和 配置 、 客 户 端 配置 等 。 
(2) 使 用 PaddlePaddle Cloud 提 交 单 节点 任务 。 


(3) 使 用 PaddlePaddle Cloud 搭 建 分 布 式 深度 学 习 推荐 网 络 模型 。 


8.1 PaddlePaddle Cloud 介 绍 


PaddlePaddle Cloud 是 高 度 可 扩展 的 高 性 能 分 布 式 深度 学 习 云 平台 ， 构 建 于 百度 云 容器 引擎 CCE 之 上 。CCE 是 基于 Docker 和 Kubernetes 的 容器 集群 管理 平台 ， 提 供 容器 化 应 用 的 一 键 式 创建 、 自 动 伸 
缩 等 弹性 高 可 用 能 力 ，CCE 产 品 架构 如 图 8-1 所 示 。 


容 从 集群 
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容器 集群 为 承载 您 业务 应 用 的 高 可 用 Docker 运行 环境 ， 服 务 为 您 构建 
的 实 际 业 务 | 六 用 0 
例如 : Nginx、Redis、ElasticSearch、RabbitMQ、My SQL 等 


图 8-1 CCE 产 品 架 构图 


在 PaddlePaddle Cloud 云 平台 中 ， 用 户 无 须 安装 、 运 维 、 扩 展 集 群 管理 基础 设施 ， 只 需 进 行 简 单 的 API 调 用 操作 ， 便 可 根据 业务 或 应 用 程序 的 资源 需求 和 可 用 性 要 求 在 个 人 专属 的 PaddlePaddle 
Cloud 集 群 中 部 署 容器 、 执 行 任务 。PaddlePaddle Cloud 基 本 架构 如 图 8-2 所 示 。 
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图 8-2” ”PaddlePaddle Cloud 基 本 架构 图 


8.2 PaddlePaddle Cloud 使 用 


在 执行 分 布 式 PaddlePaddle 任 务 之 前 ， 需 要 先 完成 PaddlePaddle Cloud 集 群 的 创建 和 配置 工作 。 需 要 注意 的 是 ， 本 章 中 提 到 的 PaddlePaddle Cloud 集 群 环境 都 是 基于 百度 公有 云 平台 部 署 实现 的 。 
下 面 将 从 创建 集群 、 配 置 集群 、 配 置 客户 端 这 三 个 步骤 详细 介绍 PaddlePaddle Cloud 的 使 用 方法 。 


8.2.1 创建 集群 


进入 百度 云 (https://cloud.baidu.com/) 的 “管理 控制 台 ”， 选 择 “容器 引擎 CCE” 中 的 “创建 集群 ”按钮 ， 即 可 填写 集群 创建 的 相应 信息 。 在 信息 填写 过 程 中 ， 需 要 注意 以 下 事项 : 
. 在 集群 配置 中 ， 设 置 容器 网 络 时 注意 选择 IP 端 ， 避 免 出 现 “容器 网 络 冲突 ”的 红色 出 错 提示 。 

. 在 节点 配置 中 ， 设 置 CPU 和 内 存 时 最 低 要 求 是 8 核 和 8GB ， 因 为 PaddlePaddle Cloud 对 机 器 配置 要 求 比较 高 。 

. 在 填写 弹性 资源 时 ， 注 意 PaddlePaddle Cloud 需 要 外 部 IP。 


* 在 填写 系统 信息 时 ， 注 意 选择 合适 的 密码 ， 以 便于 之 后 远程 登录 进行 操作 。 


` 在 填写 购买 信息 时 ， 可 以 选择 1 台 之 后 再 进行 扩展 ， 也 可 以 直接 选择 多 台 实 例 。 


8.2.2 ”配置 集群 


1. 创 建 BOS bucket 


集群 内 各 个 节点 需要 使 用 BOS bucket 作 为 共享 和 存储， 创建 方法 是 在 百度 云 “管理 控 制 台 ”中 选择 “对象 人 存储 BOS” ， 新 建 一 个 “bucket” 并 输入 bucket 名 字 即 完成 创建 。 (注意 选择 BOS 的 区 域 可 选 
为 华北 / 华南 / 华东 ， 最 好 跟 CCE 集 群 的 地 域 设 置 一 样 。) 


2. 配 置 PaddlePaddle Cloud 集 群 
配置 PaddlePaddle Cloud 集 群 的 时 候 ， 进 入 该 配置 界面 ， 选 择 集群 名 字 、PaddlePaddle 版 本 和 刚 创 建 的 BOS bucket 名 字 ， 再 设置 一 个 方便 访问 的 域名 (例如 example.domain.com) 。 


然后 下 载 kubectl 1.8 版 本 的 命令 行 工具 ， 并 从 集群 管理 页 面 中 下 载 该 集群 的 配置 文件 kubectl.conf 到 本 地 并 保存 为 ~/.kube/config， 再 运行 如 下 命令 获得 PaddlePaddle Cloud 的 对 外 IP 地 址 。 


Skubectl] get svc -n nginx-ingress 


例如 可 以 获得 该 PaddlePaddle Cloud 的 External IP 为 180.1.1.1。 
为 使 域名 在 本 地 解析 便于 用 户 访问 ， 用 户 可 以 在 本 地 “hosts” 文 件 中 增加 一 行 “Paddle EXTERNAL IP YOUR DOMAIN_NAME”， 例如 对 应 上 例 ， 应 加 入 “180.1.1.1 example.domain.com” 


几 分 钟 后 ， 通 过 浏览 器 访问 该 设 定 的 域名 http://example.domain.com/， 即 可 进入 PaddlePaddle Cloud 集 群 登录 界面 。 点 击 “SignUp” 后 , 设置 “email” “password” 等 字段 ， 完 成 


PaddlePaddle Cloud 集 群 配 置 。 (注意 ，email 和 password 为 必 填 项 ， 其 他 随意 。 ) 


8.2.3 ”配置 客户 端 


1. 下 载 PaddlePaddle Cloud 客 户 端 


PaddlePaddle Cloud 客 户 端 是 提交 PaddlePaddle Cloud 分 布 式 训练 任务 的 命令 行 工 具 。 用 户 需 要 下 载 最 新 的 PaddlePaddle Cloud 二 进 制 客户 端 (下 载 链接 : 
https://github.com/PaddlePaddle/cloud/releases) ， 并 把 PaddlePaddle Cloud 复 制 到 环境 变量 $PATH 中 的 路 径 下 ， 比 如 /usr/local/bin， 然 后 输入 下 述 命令 增加 可 执行 权限 。 


$chmod +x $PATH/paddlecloud 


2. 配 置 PaddlePaddle Cloud 客 户 端 


配置 PaddlePaddle Cloud 客 户 端 ， 首 先 需要 创建 配置 文件 ， 在 Linux/Mac 系 统 中 创建 ~/.paddle/config 文 件 (windows 系 统 创建 当前 用 户 目录 下 的 .paddle\config 文 件 ) ， 写 入 文件 的 内 容 如 下 所 


datacenters: 
- name: defauilt 
username: [your user name |] 
password: [secret] 
endpoint: http://example.domain.com 
current-datacenter: default 


配置 文件 用 于 指定 使 用 的 PaddlePaddle Cloud 服 务 器 集群 的 接 入 地 址 ， 同 时 配置 用 户 的 登录 信息 ， 各 信息 字段 对 应 含义 如 表 8-1 所 示 。 在 命令 行 下 运行 “paddlecloud get jobs”， 不 返回 出 错 信息 ， 
即 表示 PaddlePaddle Cloud 状 态 正常 ， 客 户 端的 配置 文件 运行 正常 ， 集 群 配置 通过 。 


站 
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表 8-1 配置 信息 全 义 说 明 表 


字段 含义 
name 月 定义 的 datacenter 名 称 ， 可 以 是 任意 字符 串 
username PaddlePaddle Cloud 的 用 户 名 
password 用 户 名 对 应 的 密码 
endpoint 用 户 部 署 所 使 用 的 域名 
current-datacenter 标明 使 用 哪个 datacenter 作为 当前 操作 的 datacenter， 上 默认 使 用 default 


Ef 


($ 
0 
次 


注意 ”如 果 对 ~/. paddle/config 文 件 有 修改 ， 请 删除 ~/.paddle/token_cache 目 录 。 


8.3 ”个 性 化 推荐 在 PaddlePaddle Cloud 上 的 实现 


83.1 可 wD 


在 介绍 个 性 化 推荐 系统 在 PaddlePaddle Cloud 上 的 具体 实现 之 前 ， 先 简要 介绍 提交 单 节点 任务 的 基本 过 程 和 其 中 必要 的 命令 行 语法 ， 以 下 的 操作 都 通过 PaddlePaddle Cloud 客 户 端 进行 。 
1. 提 交 数 据 文件 


提交 数据 文件 的 命令 如 下 所 示 : 


$paddlecloud file put src dest 


src 表 示 数 据 的 源 文件 目录 ，dest 表 示 数 据 提交 的 目的 文件 目录 。 需 要 注意 的 是 ，src 必 须 是 当前 目录 的 子 目录 。src 如 果 以 “/” 结 尾 ， 则 表示 上 传 src 目 录 下 的 文件 ,不 会 再 在 dest 下 创建 新 的 目录 。 如 
果 没 有 以 “/” 结 尾 ， 则 表示 上 传 src 目 录 ,会 在 dest 下 创建 一 个 新 的 目录 。dest 必 须 包 含 “/pfs/{detacenter}/home/{uesername}” 目 录 。 


以 本 书 对 应 程序 lesson2 为 例 ， 把 数据 文件 data.txt 提 交 到 PaddlePaddle Cloud 上 ， 可 以 用 如 下 命令 : 


$paddlecloud file put ./data.txt /pfs/default/home/xxx@eample.com 


注意 : xxx@example.com 即 之 前 通过 http://example.domain.com 页 面 signup 所 用 的 邮箱 地 址 。 


2. 提 交 执 行 任务 


还 是 以 本 书 对 应 程序 lesson2 下 执行 文件 名 为 “train_with_paddle.py” 的 程序 为 例 ， 提 交 执 行 任务 命令 如 下 所 示 。 命 令 设置 任务 名 为 lesson2，CPU 数 为 1，GPU 数 为 0， 并 行 度 为 1。 


smkdir cloud 

$cp train with paddle.py cloud 

# 修改 train with paddle.py， 把 load data ("data.txt")， 改 为 load data("http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompresseq/17642/OBHI 
$vi cloud/ train with paddle.py 
$pagddlecloud submit -jobname lesson2 -cpu 1 -gpu 0 -parallelism 1 -entry "python train with paddle.py" cloud/ 


BPS/Text/../htt 


注意 train_with_paddle.py 将 上 传 到 节点 上 的 /home/pcloud/data/public/[username]/jobs/lesson2 路 径 下 ， 之 所 以 需要 修改 文件 ， 是 因为 数据 文件 和 程序 文件 上 传 后 的 路 径 不 在 同一 个 目录 下 。 


3. 查 看 任务 状态 和 日 志 


为 确保 任务 的 正常 执行 ， 经 常 需要 查看 任务 的 执行 情况 ， 即 查看 任务 当前 状态 和 执行 日 志 。 操 作 具 体 命令 如 下 所 示 : 


$Spaddlecloud get jobs # 查看 job 的 状态 
Spaqqlecloud get jobs lesson2 # 查看 任 
$paddlecloud get workers lesson2 # 查看 任务 执行 的 状态 

$Spaddlecloud logs (-n num)lesson2 # 查看 任务 的 日 志 ， 加 上 -n 参数 能 看 到 更 多 日 志 


4. 终 止 任务 


执行 终止 任务 命令 ， 可 以 停止 在 该 集群 上 的 所 有 该 训练 任务 ,命令 如 下 所 示 。 在 之 后 提交 新 的 任务 时 ， 需 要 更 改 提 交 时 的 -name 人 参数， 防止 任务 名 称 冲 突 。 


$paddlecloud kill jobname 


5. 输 出 训练 模型 


任务 成 功 执行 后 ， 训 练 程序 通常 会 将 模型 输出 保存 在 云端 文件 系统 中 ， 查 看 、 下 载 模型 输出 的 命令 如 下 所 示 : 


$Spagddlecloud file ls # 查看 模型 输出 
$paddlecloud file get # 下 载 模型 输出 


Eis 


8.3 ”个 性 化 推荐 在 PaddlePaddle Cloud 上 的 实现 


83.1 提早 Daal 注 


在 介绍 个 性 化 推荐 系统 在 PaddlePaddle Cloud 上 的 具体 实现 之 前 ， 先 简要 介绍 提交 单 节点 任务 的 基本 过 程 和 其 中 必要 的 命令 行 语法 ， 以 下 的 操作 都 通过 PaddlePaddle Cloud 客 户 端 进行 。 
1. 提 交 数 据 文件 


提交 数据 文件 的 命令 如 下 所 示 : 


$paddlecloud file put src dest 


src 表 示 数 据 的 源 文件 目录 ，dest 表 示 数 据 提交 的 目的 文件 目录 。 需 要 注意 的 是 ，src 必 须 是 当前 目录 的 子 目 录 。src 如 果 以 “/” 结 尾 ， 则 表示 上 传 src 目 录 下 的 文件 ,不 会 再 在 dest 下 创建 新 的 目录 。 如 
果 没 有 以 “/” 结 尾 ， 则 表示 上 传 src 上 有 目录， 会 在 dest 下 创建 一 个 新 的 目录 。dest 必 须 包含 “/pfs/{detacenter}/home/{uesername} ”目录 。 


以 本 书 对 应 程序 lesson2 为 例 ， 把 数据 文件 data.txt 提 交 到 PaddlePaddle Cloud 上 ， 可 以 用 如 下 命令 : 


$paddlecloud file put ./data.txt /pfs/default/home/xxx@eample.com 


注意 : xxx@example.com 即 之 前 通过 http://example.domain.com 页 面 signup 所 用 的 邮箱 地 址 。 
2. 提 交 执 行 任务 
还 是 以 本 书 对 应 程序 lesson2 下 执行 文件 名 为 “train_with_paddle.py” 的 程序 为 例 ， 提 交 执 行 任 务 命令 如 下 所 示 。 命 令 设置 任务 名 为 lesson2，CPU 数 为 1，GPU 数 为 0， 并 行 度 为 1。 


smkdir cloud 

$cp train with paddle.py cloud 

# 修改 train with paddle.py， 把 load data ("data.txt")， 改 为 load data ("http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17642/0EBPS/Text/../htt 
$vi cloud/ train with paddle.py 
$paddlecloud submit -jobname lesson2 -cpu 1 -gpu 0 -parallelism 1 -entry "python train with paddle.py" cloud/ 


注意 ”train_with_paddle.py 将 上 传 到 节点 上 的 /home/pcloud/data/public/[username]/jobs/lesson2 路 径 下 ， 之 所 以 需要 修改 文件 ， 是 因为 数据 文件 和 程序 文件 上 传 后 的 路 径 不 在 同一 个 目录 下 。 
3. 查 看 任务 状态 和 日 志 


为 确保 任务 的 正常 执行 ， 经 常 需要 查看 任务 的 执行 情况 ， 即 查看 任务 当前 状态 和 执行 日 志 。 操 作 具 体 命令 如 下 所 示 : 


Spadqdqlecloud get jobs # 查看 job 的 状态 
Spaqqlecloud get jobs lesson2 # 查看 任务 执行 的 状态 
$Spaddlecloud get workers lesson2 # 查看 任务 执行 的 状态 
$Spaddlecloud logs (-n num) lesson2 # 查看 任务 的 日 志 , 力 


| 


0 上 -n 参数 能 看 到 更 多 日 志 


4. 终 止 任务 


执行 终止 任务 命令 ， 可 以 停止 在 该 集群 上 的 所 有 该 训练 任务 ， 命 令 如 下 所 示 。 在 之 后 提交 新 的 任务 时 ， 需 要 更 改 提交 时 的 -name 参 数 ， 防 止 任务 名 称 冲 突 。 


$paddlecloud kill jobname 


5. 输 出 训练 模型 


任务 成 功 执行 后 ， 训 练 程序 通常 会 将 模型 输出 保存 在 云端 文件 系统 中 ， 查 看 、 下 载 模型 输出 的 命令 如 下 所 示 : 


Eis 


le 1s # 查看 模型 输出 
le get # 下 载 模 型 输出 


$paddlecloud ff 
$paddlecloud ff 


bbe 


8.3.2 个 性 化 推荐 在 PaddlePaddle Cloud 上 的 实现 


本 书 的 第 7 章 详细 讲述 了 个 性 化 电影 推荐 系统 在 PaddlePaddle 上 的 实现 ， 而 本 节 则 主要 介绍 个 性 化 电影 推荐 系统 在 PaddlePaddle Cloud 上 的 实现 。 


个 性 化 推荐 在 PaddlePaddle Cloud 上 的 实现 采用 分 布 式 任 务 提 交 的 模式 ， 分 布 式 任务 和 单 节点 任务 最 重要 的 区 别 在 于 数据 文件 需要 进行 拆 分 ， 且 提交 任务 时 需要 指定 大 于 1 的 并 行 度 。 在 
PaddlePaddle Cloud 上 的 实现 主要 包括 两 个 python 源 文件 ，“prepare_data.py” 主 要 完成 数据 预 处 理 、 拆 分 的 功能 ，“train_with_cloud.py” 主 要 完成 数据 并 行 读 取 、 并 行 训练 ， 输 出 预测 结果 等 功 
能 。 这 两 个 程序 都 在 本 书 参 考 程序 的 lesson8 子 目录 下 。 


下 文 将 结合 两 个 文件 的 代码 介绍 各 功能 模块 的 具体 实现 。 
1. 数 据 准备 


根据 个 性 化 电影 推荐 系统 设计 需要 ， 系 统 的 训练 需要 在 多 节点 上 分 布 式 进行 。 要 实现 多 节点 同时 训练 ， 就 需要 将 原始 数据 集 MovieLens 拆 分 成 若干 个 独立 的 子 部 分 。 我 们 可 以 提交 一 个 任务 上 去 ， 由 
PaddlePaddle Cloud 执 行 该 任务 ， 完 成 数据 集 下 载 和 数据 文件 拆 分 的 功能 。 


例如 提交 拆 分 数据 文件 任务 的 命令 为 : 


smkdir cloud;cp prepare data.py cloud 
$vi cloud/prepare data.py # 把 USERNAME 改 为 之 前 注册 好 的 邮箱 地 址 
$paddlecloud submit -jobname r-p -cpu 1 -gpu 0 -parallelism 1 -entry "Python prepare data.py" cloud 


相关 代码 如 代码 清单 8-1 和 代码 清单 8-2 所 示 。 


代码 清单 8-1 参数 设置 


import os 

t paddle.v2.dataset as dataset 
# USERNAME 是 PaddlePaddle Cloud 平 台 登 录 的 用 户 名 ， 直 接替 换 相 应 字段 即 可 
USERNAME = "xxxQexample.domain.com" 
# 获取 PaddlePagddle Cloug 当 前 数据 中 心 的 环境 变量 值 
DC = os.getenv ("PADDLE CLOUD CURRENT DATACENTER") 


# 设 定 在 当前 数据 中 心 下 缓存 数据 集 的 路 径 

qataset.common.DATA HOME = "/pfs/%$s/home/%s" % (DC, USERNAME) 

TRAIN FILES PATH = os.path.join(dataset.common.DATA HOME， "movielens") 
# 获取 训练 器 的 相关 参 类 加 

TRAINFER ID = int (os.getenv ("PADDLE INIT TRAINER ID") ) 

TRAINER INSTANCES = int (0s.getenv ("PADDLE INIT NUM GRADIENT SERVERS") ) 


代码 清单 8-2 ”数据 拆 分 


def main(): 
根据 训练 文件 路 径 对 movielens 数 据 集 进行 拆 分 ， 并 输出 操作 日 志 


# 判断 训练 是 否 在 PaddlePagddle Cloud 上 执行 
1 ; FR 


F TRA NER ID == -1] or TRAIN . INSTANCES. == ls 
print "no cloud environ found, must run on clougd" 
exit (1) 


print ("\nBegin to convert data into "+ dataset.common .DATA HOME) 
# 拆 分 数据 
dataset .common.convert (TRAIN FILES PATH, 


dataset .movielens.train(), 1000, "train") 
print ("\nConvert process is finished") 
print ("\nPlease run 'paddlecloud file ls "+ dataset.common.DATA HOME+ 
"/movielens' to check :if datas exist there") 
2. 数 据 读 取 


分 布 式 数据 读 取 是 从 给 定 的 Record1O 文 件 路 径 中 读 取 训练 数据 ， 并 返回 Record1O 文 件 的 数据 读 取 结果 。 这 次 提交 的 任务 并 行 度 大 于 1， 即 由 多 个 实例 来 运行 分 布 式 训 练 。 


例如 提交 分 布 式 训练 任务 的 命令 为 : 


$cp train with cloud.py cloud 
$vi cloud/train with cloud.py # 把 USERNAME 改 为 之 前 注册 好 的 邮箱 地 址 
$paddlecloud submit -jobname r-t -cpu 2 -gpu 0 -parallelism 2 -entry "Python train with cloud.py" cloud 


注意 此 次 并 行 度 设置 为 2， 即 由 两 个 实例 来 进行 分 布 式 训练 ， 可 以 用 $paddlecloud logs ft 能 看 到 两 个 实例 的 日 志 输 出 。 
数据 读 取 的 代码 如 代码 清单 8-3 所 示 : 


代码 清单 8-3 ”数据 读 取 


def recordio(paths, buf size=100): 
从 给 定 的 被 ", "分 开 的 RecordIO 文 件 路 径 创 建 数 据 reader 
Args: 
path -- recordio 文 件 的 路 径 
buf size -- buf 大 小 设 为 100 
Return: 
dec.buffered (reader，buf size) -- recordio 文 件 的 数据 reader 


import recordio as rec 
import paddle.v2.reader.decorator as dec 
import cPickle as pickle 

# 文件 读 取 模块 
def reader () : 
f = rec.reader (paths) 
while True: 

r= f.read!() 

if r is None: 

break 

yield pickle.1oads (r) 
f.close() 
return dec.buffered (reader, buf size) 


3. 模 型 配置 、 训 练 和 测试 


个 性 化 电影 推荐 系统 在 PaddlePaddle Cloud 上 的 模型 与 其 在 PaddlePaddle 上 的 模型 是 完全 一 致 的 ， 所 以 构建 用 户 融 合 特征 、 构 建 电 影 融 合 特征 、cost 计 算 、 训 练 器 定义 、 模 型 测试 等 的 代码 模块 也 是 
完全 一 致 的 ， 相 应 功能 模块 的 具体 代码 可 参考 第 7 章 相 关内 容 ， 这 里 就 不 再 赣 述 了 。 系 统 在 PaddlePaddle Cloud 上 的 分 布 式 训练 模块 代码 有 一 定 变化 ， 如 代码 清单 8-4 所 示 。 


代码 清单 8-4 ”模型 训练 


def event handler (event): 
if isinstance (event, paddle.event.EndIiteration): 


f event.batch id $ 100 == 0: 
print "Pass %d Batch %d Cost %.2f™ $% 人 
event.pass id, event.batch id, event.cost) 


| 


# 训 练 数据 文件 读 入 Reader 修 改 为 "recordio (TRAIN FILES PATH)" 
trainer.trainl( 加 加 
reader=paddle .batch ( 
pagddle.reader.shuffle (recordio (TRAIN FILES PATH), buf size=8192), batch size=256), 
event handler=event handler, 加 加 加 
feeding=feeding, 
num passes=1) 


本 章 小 结 


本 章 以 个 性 化 电影 推荐 系统 在 PaddlePaddle Cloud 上 的 实现 为 应 用 场景 ， 为 读者 详细 介绍 了 PaddlePaddle Cloud 的 配置 方法 和 基本 用 法 ， 并 就 具体 应 用 场景 给 出 了 PaddlePaddle Cloud 分 布 式 训练 
的 代码 实现 。 


本 章 的 参考 代码 在 https://github.com/BaiduOSS/DeepLearningAndPaddleTutorial 下 lesson8 子 目录 下 。 


第 9 章 广告 CTR 预 估 


CTR 预 估 ， 对 这 类 问题 进行 介绍 和 阐述 。9.1 节 


本 章 将 介绍 PaddlePaddle 是 如 何 处 理工 业界 的 一 个 常见 问题 一 一 广告 点 击 通 过 率 (Click Through Rate，CTR) 预 估 ， 这 里 将 用 其 更 为 常见 的 说 法 
介绍 CTR 的 定义 和 CTR 预 估 中 常见 的 预测 和 推荐 算法 ， 以 及 CTR 预 估 效 果 的 评估 标准 。9.2 节 介绍 CTR 预 估 涉 及 的 基本 过 程 ， 同 时 说 明 特 征 预 处 理 在 整个 CTR 预 估 过 程 中 发 挥 的 作用 。9.3 节 介绍 工业 上 CTR 预 
估 的 常见 模型 及 各 自 的 优 缺 点 ， 对 几 种 较为 常用 的 模型 也 会 进行 详细 介绍 。9.4 节 介绍 CTR 预 估 在 PaddlePaddle 上 的 实现 ， 包 括 模型 的 建立 和 代码 的 实现 。 


注意 ”本章 中 所 介绍 的 CTR 预 估 是 一 个 简化 的 流程 ， 仅 供 读者 入 门 学 习 使 用 ， 实 际 的 CTR 预 估 远 比 本 书 中 介绍 的 模型 复杂 得 多 。 
学 完 本 章 ， 希 望 读者 能 达到 如 下 目的 : 

(1) 熟练 掌握 CTR 预 估 原 理 及 CTR 预 估 流 程 。 

(2) 初步 的 理解 和 认识 CTR 预 估 过 程 中 涉及 的 算法 、 模 型 。 


(3) 能 利用 文中 的 示例 代码 实现 简单 的 CTR 预 估 。 


9.1 CTR 预 估 简 介 


计算 广告 学 是 一 个 十 分 庞大 的 学 科 ， 里 面 涵 盖 了 自然 语言 处 理 、 机 器 学 习 、 推 荐 系统 等 众多 研究 方向 。 而 广告 作为 互联 网 行业 的 三 大 一 利 模式 (广告 、 电 商 、 游 戏 ) 之 一 ， 是 这 三 大 模式 中 最 有 技术 合 
量 的 ， 因 而 计算 广告 学 一 直 都 吸引 着 无 数学 术 界 、 工 业界 的 精英 投入 其 中 。 计 算 广告 学 中 的 CTR 预 估 正 是 机 器 学 习 在 商业 界 最 成 功 的 应 用 之 一 。CTR 预 估 可 以 为 搜索 引擎 等 广告 平台 提供 一 个 更 为 合理 的 广 
告 排序 机 制 ， 从 而 使 得 收益 最 大 的 广告 能 够 获得 更 高 频次 的 展示 (display) ， 最 终 使 得 广告 平台 利益 最 大 化 。 


9.1.1 CTR 定 义 


单 次 点 击 成 本 (Cost Per Click，CPC) 和 干 次 展示 印象 成 本 (Cost Per 1000 Impressions，CPM) 。 


在 介绍 CTR 之 前 ， 首 先 需 要 介绍 两 个 补充 概念 


CPC 对 于 广告 发 布 者 而 言 ， 是 每 产生 一 次 用 户 点 击 ， 需 要 支付 给 发 布 网 站 的 成 本 。 而 对 于 广告 平台 而 言 是 每 产生 一 次 用 户 点 击 从 广告 发 布 者 处 获得 的 收益 。 


CPC = 0 ( 9-1) 
Click i 


为 了 统一 表述 ， 本 书 将 研究 对 象 定 为 广告 平台 ，Click 为 单 则 广告 总 点 击 数 ，Cost 为 该 广告 总 收入 。 


CPM 字面 意思 是 每 和 后 人 印象 成 本 ， 这 是 对 于 广告 发 布 商 而 言 的 。 对 于 广告 平台 而 言 ， 则 是 每 展示 1000 次 单 则 广告 所 产生 的 收益 ， 公 式 为 : 
Cost : 
x 1000 ( 9-2 ) 
Impression 


其 中 ，Cost 为 某 一 则 广告 的 总 收益 ，|Impression 为 展示 次 数 。 


CPM 


并 
S 


CTR 中 文 一 般 译名 为 点 击 通 过 率 ， 也 可 以 简称 为 点 击 率 。 其 含义 为 一 则 广告 展示 转化 为 用 户 点 击 的 比率 (可 以 理解 为 该 则 广告 每 次 展示 会 带 来 多 少 次 点 击 ) ,计算 公式 如 下 : 


Click 
CTR = 一 一 一 一 一 (9-3 ) 
Impression 


其 中 ，Click 为 某 一 则 广告 的 总 点 击 数 ，Impression 为 展示 次 数 。 


CPC 乘 以 CTR 的 结果 ， 对 于 广告 发 布 商 而 言 为 每 次 展示 的 成 本 ， 对 于 广告 平台 而 言 则 是 每 次 展示 的 收益 。CPM 为 每 1000 次 展示 的 成 本 (收益) ， 那 么 推导 可 以 得 到 CTR、CPC 和 CPM 之 间 的 关系 : 


CPM=CIRxCPCX 1000 (9-4 ) 


由 上 述 公 式 可 以 看 出 ，CTR= 1/1000 时 ，CPM=CPC， 如 果 CTR> 1/1000， 则 CPM >CPC， 如 果 CTR<1/1000， 则 CPM <CPC。 之 所 以 用 CTR= 1/1000 作 为 平衡 点 ， 是 由 于 之 前 研究 表明 ， 多 数 情 形 
下 ，1000 次 展示 能 够 带 来 1 次 点 击 。 


CTR 预 估 的 最 终 目标 便 是 获得 最 大 的 干 次 展示 的 收益 ,使 得 CPM 最 大 化 。 


9.1.2 ”CTR 与 推荐 算法 的 异同 


我 们 在 上 一 章 中 已 经 学 习 了 推荐 算法 的 相关 知识 ， 那 么 CTR 与 推荐 算法 之 间 有 什么 不 同 呢 ? 


CTR 与 推荐 算法 最 大 的 不 同 在 于 对 精准 性 的 要 求 上 。 一 般 而 言 ， 推 荐 算法 只 需要 得 到 一 个 产品 的 最 优 次 序 ， 不 需要 知道 精准 的 概率 ， 它 的 目的 是 帮助 用 户 发 现 潜在 感 兴趣 的 内 容 。 然 而 对 于 广告 中 的 
CTR 预 估 而 言 ， 需 要 给 出 精准 的 CTR， 根 据 计 算 结 果 结合 出 价 供 广告 平台 排序 使 用 。 推 荐 算法 更 倾向 于 产品 ， 重 在 用 户 体验 ，CTR 预 估 偏 重 于 商业 (有 广告 主 ， 有 买卖 ) 。 


但 是 推荐 算法 和 CTR 预 估 在 目的 上 也 有 相似 的 地 方 ， 都 是 为 了 在 合适 的 场景 、 合 适 的 时 间 给 合适 的 目标 受众 展示 合适 的 内 容 ， 引 导 用 户 点 击 。 


9.1.3 CTR 预 估 的 评价 指标 


得 出 CTR 预 估 的 结果 后 ， 如 果 想 要 了 解 CTR 预 估 结 果 的 优 劣 ， 通 常 使 用 由 logloss 和 AUC 指 标 组 成 的 指标 体系 ， 对 CTR 预 估 结 果 的 质量 进行 评估 。 
1.Log 损 失 (logloss) 
对 于 一 般 情 况 而 言 ， 可 以 使 用 logloss 用 来 评估 CTR 的 准确 性 ， 在 介绍 logloss 之 前 ， 先 引入 KL 距离 的 概念 。 


Kullback-Leibler 差 异 (Kullback-Leibler Divergence) ， 简 称 为 KL 距离 ， 又 称 相对 (Relative Entropy) 。 它 衡量 的 是 相同 时 间 、 空 间 里 ， 两 个 概率 分 布 的 差异 情况 ， 那 么 对 于 两 个 概率 分 布 
P (x) 和 Q (x) 而 言 ， 二 者 的 KL 距离 为 : 


D(PIO)= > ,P(X)log 


2 


回 到 CTR 预 估 问 题 ， 假 设 真 实 的 CTR 为 tCTR， 预 测 的 CTR 为 pCTR， 则 预 估 CTR 与 真实 CTR 的 KL 距离 为 : 


tCTR 1 -tCTR 
KL (tCTRIIpCTR)= tCTR : log——— + (1-tCTR) .log 一 一 一 ( 9-6 ) 
pCTR 1-pCTR 


PO (9-5) 


最 后 化 简 上 述 公式 ， 可 以 得 到 KL 距离 的 简化 形式 ,: 


KL (tCTRIIpCTR) 


] 
- 一 -一 一 [-clink .log (pCTR) - 
Iimpression 


(impression—click)* log : ( 1-pCTR) +const.] ( 9-7 ) 
impression 为 一 则 广告 的 展示 次 数 ，dlick 为 总 点 击 数 ，const. 为 常量 。 一 般 而 言 ， 可 以 选取 中 括号 内 的 内 容 进 一 步 简 化 计算 ， 也 就 是 logloss: 
logloss = —click * log (pCTR) — (impression—click): log * ( 1-pCTR) ( 9-8) 
logloss 信 越 小 ， 说 明 pCTR 与 {CTR 的 差距 越 小 ， 即 CTR 预 估 结 果 越 接近 真实 情况 。 
2.AUC (Area Under Curve) 指标 


除了 对 于 一 般 问 题 的 logloss 指 标 之 外 ， 如 果 对 CTR 预 估 设 置 阅 值 ， 壁 如 0.5， 大 于 0.5 的 CTR 为 “1” 类 ， 小 于 等 于 0.5 的 CTR 为 “0” 类 ， 那 么 CTR 问 题 将 变 为 二 分 类 问题 。 对 于 二 分 类 问题 ， 可 将 样本 根 
据 真 实 值 和 预测 值 的 组 合 ， 划 分 为 表 9-1 所 示 的 4 种 形式 。 表 9-1 为 混淆 矩阵 表 ， 分 别 用 0 和 1 代表 正 样本 和 负 样 本 。 


表 9-1 预测 值 与 真实 值 混 淆 矩阵 表 


(True, T) (False, F) 
预测 值 : 1 大 阳性 伪 阳 性 
(Positive, P) (True Positive, TP) (False Positive, FP) 
预测 值 : 0 伪 阴 性 真 阴性 
(Negative, N) (True Negative, TN) (False Negative, FN) 


有 了 表 9-1 的 定义 ， 一般 研 究 中 ， 通 常会 使 用 准确 预测 率 (Precision Rate) 、 正 确 率 (Accuracy Rate) 、 召 回 率 (Recall Rate) 和 F- 评 估 值 (F-Measure) 对 二 分 类 结果 进行 评估 : 


1) 准确 预测 率 (下 式 中 的 Precision) 表示 在 预测 值 为 1 的 结果 中 ， 预 测 正确 的 比率 ，Precision 越 高 ， 证 明 预 测 值 为 1 的 预测 结果 越 准 确 : 


. 1P 
Precision = 一 -一 ( 9-9 ) 
TP++FP 


2) 召回 率 (下 式 中 的 Recall) 表示 真实 值 为 1 的 样本 中 ， 预 测 正确 的 比率 ， 召 回 率 越 高 ， 证 明 对 于 真实 情况 为 1 的 结果 所 做 的 二 分 类 效果 越 好 : 


TP 
Recall = 一 一 一 ( 9-10 ) 
TP+TN 


3) 正确 率 (下 式 中 的 Accuracy) 表示 预测 值 与 真实 值 一 致 的 结果 比率 ，All 为 全 体 样本 数目 ， 正 确 率 越 高 ， 说 明 预 测 结 果 与 真实 情况 越 接近 : 


TP+FN 
Accuracy = a (9-11 ) 


4) F- 评 估 值 (下 式 中 的 F-Measure) 是 对 于 Precision 和 Recall 的 综合 考虑 参数 ，F-Measure 越 大 ， 说 明 所 使 用 的 二 分 类 算法 效果 越 好 : 


2 z 
F-Measure = i ( 9-12 ) 
十 一 一 一 一 一 一 
Preclslon Recall 


对 于 CTR 预 估 而 言 ，Precision、Recall、Accuracy 以 及 F-Measure 都 可 以 评估 CTR 预 估 结 果 的 优 务 ， 但 是 这 些 方法 对 于 测试 数据 样本 的 依赖 性 非常 大 ， 有 些 测试 数据 集 本 身 只 有 细微 的 差异 ， 但 最 终结 
果 的 评估 指标 差异 却 非常 大 。 对 于 严重 不 均衡 的 测试 样本 ， 衡 量 也 会 比较 困难 。 


那么 ， 既 然 无 法 使 用 简单 的 单 点 Precision/Recall 来 描述 ， 我 们 考虑 使 用 一 系列 的 点 来 描述 准确 性 。 做 法 如 下 : 
1) 对 于 测试 样本 ，CTR 预 估算 法 会 给 出 每 个 数据 对 应 的 预测 结果 ， 以 及 相应 的 可 信和 度 评 分 (Confidence Score) 。 


2) 按照 给 出 的 评分 进行 排序 ， 将 其 中 一 个 评分 作为 阐 值 (Thresholds) ， 问 题 转化 为 一 个 二 分 类 问题 ， 低 于 立 值 的 结果 被 打上 标签 “0”， 高 于 阅 值 的 结果 被 打上 标签 “1”。 此 时 引入 两 个 新 的 标 
准 ， 假 正 率 (False Positive Rate，FPR) 和 真正 率 (True Positive Rate, TPR) 。 


FPR 是 实际 标签 为 “0” 的 样本 中 ， 被 预测 错误 的 比例 ， 计 算 公式 如 下 : 


FP 
FPR = 一 -一 一 ( 9-13 ) 
FP +TN 


TPR 是 实际 标签 为 “1” 的 样本 中 ， 被 预测 正确 的 比例 ， 计 算 公式 如 下 : 


TP 
~ TP+FN 


3) 当选 用 不 同 阔 值 时 ， 将 FPR 值 设 为 横 坐 标 ，TPR 值 设 为 纵 坐 标 ， 绘 制 出 接收 者 操作 特征 (Receive Operating Characteristic，ROC) 曲线 ， 如 图 9-1 所 示 。 


(9-14 ) 


4) 为 了 避免 阔 值 设 定 对 于 分 类 器 结果 的 影响 ， 通 常 引 入 ROC 曲 线 下 方面 积 (Area Under Curve，AUC) 以 此 进行 评价 ， 如 图 9-2 所 示 阴 影 面 积 便 是 AUC。 
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图 9-1 基 
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图 9-2 ” ROC 曲线 对 应 的 AUC (阴影 部 分 面积 


AUC 值 越 大 ， 预 测 越 准确 。 当 测试 集中 的 正 负 样 本 的 分 布 变化 的 时 候 ，ROC 曲 线 能 够 保持 不 变 ， 并 且 对 于 不 均衡 的 数据 集 ，AUC 也 能 有 一 定 的 容忍 性 。 因 而 AUC 常 常 作 为 CTR 预 估 效 果 的 评估 指标 。 


9.2 CTR 预 估 的 基本 过 程 


具体 进行 CTR 预 估 时 ， 通 常 涉及 三 个 问题 : CTR 模 型 训练 的 总 体 步骤 是 怎样 的 ? 为 什么 要 进行 特征 预 处 理 ? 特征 选择 在 这 个 过 程 中 发 挥 了 怎样 的 作用 ? 在 本 节 中 ， 将 逐一 解答 这 三 个 问题 。 


9.2.1 CTR 预 估 的 三 个 阶段 


一 个 完整 的 CTR 预 估 模 型 从 开始 建立 到 最 终 的 上 线 服务 ， 通 常会 经 历 三 个 阶段 : 特征 工程 阶段 、 模 型 训练 阶段 和 线 上 服务 阶段 ， 如 图 9-3 所 示 。 


特征 工程 模型 训练 


图 9-3 ”完整 的 CITR 预 估 通 常 经 历 的 三 个 阶段 


在 特征 工程 阶段 中 ， 首 先 对 数据 进行 预 处 理 。 按 照 广告 中 的 不 同 部 分 进行 分 割 ， 预 处 理 可 分 为 用 户 特征 处 理 、 广 告 特征 处 理 、 上 下 文 特征 处 理 。 再 进行 特征 工程 ， 对 特征 进行 筛选 ， 选 出 有 用 的 特征 或 
者 对 特征 进行 变形 (如 归 一 化 、 正 则 化 等 ) ， 使 得 特征 本 身 更 适用 于 处 理 。 特 征 编码 使 得 特征 向 量化 ， 例 如 One-Hot 编 码 ， 可 以 将 一 些 抽象 的 特征 变 得 可 以 在 数学 上 计算 。 最 后 执行 特征 评估 ， 评 佑 特征 的 
重要 性 和 优先 级 。 


在 模型 训练 阶段 完成 CTR 模 型 的 训练 、 评 估 、 检 查 和 测试 等 工作 。 在 这 一 阶段 提升 线 下 模型 的 拟 合 效果 ， 使 得 模型 在 线 下 训练 阶段 达到 最 优化 。 


在 线 上 服务 阶段 中 ， 先 建立 实验 平台 进行 线 上 试 运 行 ， 从 模型 库 中 挑选 合适 的 模型 ， 建 立 线 上 特征 库 。 在 平台 上 线 后 ， 根 据 反 馈 及 实时 特征 对 CTR 评 佑 模型 进一步 调 优 (特征 筛选 、 特 征 组 合 ) ， 使 其 
更 加 健壮 可 靠 。 


9.2.2 “CTR 预 估 中 的 特征 预 处 理 


CTR 预 估 模 型 根据 一 些 输入 特征 (用户 基本 信息 、 历 史 行 为 数据 、 广 告 信息 及 环境 信息 等 ) 得 到 该 用 户 点 击 广告 的 概率 。 在 利用 特征 之 前 ， 往 往 还 会 对 原始 特征 进行 预 处 理 。 常 用 的 特征 预 处理 方 式 有 
下 面 5 种 : 
“ 独 热 编码 (One-Hot encoding) : 根据 特征 的 维度 N， 确 定 一 个 NN 维 向 量 ， 其 第 i 个 元 素 为 1， 其 余 元 素 为 0。 举 个 实际 例子 ,例如 地 理 特征 分 为 东 、 南 、 西 、 北 四 个 维度 ， 那 么 一 种 可 行 的 One-Hot 编 码 
可 以 是 [1 ，0,，0,，0] 代 表 东 、[0，1，0，,，0] 代 表 南 、[0，0，1，0] 代 表 西 、[0，0，0，, 了 代表 北 ，1 就 是 唯一 的 hot 点 ， 反 应 特征 。 


“ 离散 化 (Discretization) : 把 连续 的 数字 变 成 离散 的 特征 ， 此 时 新 的 特征 往往 代表 之 前 连续 数字 的 一 个 子 区 间 。 

: 归 一 化 (Normalization) : 归 一 化 就 是 将 一 条 记录 中 各 个 特征 的 取 值 范围 国定 到 〈0，1) 之 间 。 从 而 使 每 一 个 特征 值 都 在 一 个 范围 内 ， 从 而 保证 各 个 特征 值 之 间 相 差 过 大 。 
“ 特征 选择 (Feature Selection) : 特征 选择 就 是 从 已 有 的 M 个 特征 (feature) 中 选择 出 一 些 最 有 效 特征 以 降低 数据 集 维度 的 过 程 ， 是 CTR 预 舍 性 能 的 一 个 重要 手段 。 

* 特征 交叉 《Featute intersection) : 把 多 个 特征 进行 交叉 产生 的 新 的 值 作为 特征 值 ， 用 于 训练 ， 这 种 值 可 以 表示 一 些 非 线性 的 关系 。 


将 整个 CTR 预 估 建 模 阶 段 的 流程 简化 ， 可 以 得 到 | 特征 预 处 理 阶 段 的 流程 图 ， 如 图 9-4 所 示 。 


总 工作 量 的 80% ， 需 要 专业 知识 ， 机 器 学 习 ， 
可 以 大 幅 提升 最 后 的 准确 率 10% ~ 20% 工作 量 


图 9-4 CTR 预 估 的 特征 预 处 理 


由 图 9-4 不 难看 出 ， 特 征 预 处 理 在 整个 CTR 预 估 建 模 过 程 中 具有 很 重要 的 意义 ， 它 几乎 承担 了 整个 建 模 过 程 工作 量 的 80%， 且 其 本 身 对 于 准确 率 的 提升 而 言 极其 关键 。 可 以 说 ， 一 个 好 的 特征 预 处 理 ， 决 
定 了 一 个 好 的 特征 工程 阶段 ， 读 者 在 进行 CTR 建 模 工 作 时 应 该 给 予 足够 的 重视 。 


9.3 ”CTR 预 佑 的 党 见 模型 


在 实际 的 CTR 预 估 问 题 中 ，CTR 模 型 本 身 也 经 历 了 一 条 发 展 脉 络 ， 从 最 初 主要 针对 海量 高 维 离散 特征 的 逻辑 回归 (Logestic Regression，LR) ， 到 主要 针对 少量 低 纬度 梯度 特征 的 梯度 提升 决策 树 
(Gradient Boosting Decision Tree，GDBT) ， 此 后 Facebook 综 合 LR 和 GBDT 提 出 了 改进 的 GBDT+LR 的 预 估 模型 ， 此 后 还 有 一 些 综合 改进 模型 ， 如 分 解 机 (Factorization Machine，FM) 综合 深度 神 


经 网 络 (Deep Neural Network，DNN) 。 在 LR 的 基础 上 ， 也 有 不 少 改进 模型 ， 如 混合 逻辑 回归 (Mixed Logestic Regression，MLR) 模型 。 下 面 将 逐一 介绍 这 些 模型 。 


9.3.1 LR 模型 
LR 模型 可 以 称 的 上 是 CTR 预 估 模 型 的 开山 鼻祖 ， 也 是 工业 界 使 用 最 为 广泛 的 CTR 预 估 模 型 。LR 是 广义 线性 模型 ， 与 传统 线性 模型 相 比 ，LR 使 用 了 Logistic 变 换 将 函数 值 映射 到 0 ~ 1 区 间 ， 了 映射 后 的 函数 
值 就 是 CTR 的 预 估 值 。 


LR 利 用 了 Logistic 函 数 ， 函 数 形式 为 : 


] FP 
hea(x) =g(0x) =——— FPR = 一 一 一 (9-15) 
EE FP+TN 


对 于 线性 边界 ， 边 界 形式 如 下 : 


FP 
Oo + Oix1+ 人 0, xX, 一 bs OX; Ox FPR = 一 一 一 一 9-16 ) 
FP+TN 


Logistic 国 数 在 有 个 很 漂亮 的 “S” 形 ， 如 图 9-5 所 示 。 


| 


-0 一 4 二 0 2 4 6 


图 9-5 Logistic 函数 曲线 图 


构造 1og 损 失 函 数 ， 用 梯度 下 降 法 求 最 小 值 ， 得 到 参数 向 量 6: 


J(0)= Cost(h, (x,),y, ) 


] 
一 一 一 > 1y,logh, (x, )+(1- y,;)logh, (1- 为) 
m 


( 9-17) 


1. 正 则 化 


为 了 防止 过 拟 合 ， 通 常会 在 损失 函数 后 面 增加 惩罚 项 L1 正 则 或 者 L2 正 则 : 
“ L1 正 则 化 是 指 权 值 向 量 w 中 各 个 元 素 的 绝对 值 之 和 ， 通 常 表示 为 | |w||1。 
` IL2 正 则 化 是 指 权 值 向 量 w 中 各 个 元 素 的 平方 和 然后 再 求 平方 根 ， 通 常 表示 为 | |w| |2。 


其 中 ，L1 正 则 可 以 产生 稀疏 性 ， 即 让 模型 部 分 特征 的 系数 为 0。 这 样 做 有 几 个 好 处 : 首先 可 以 让 模型 简单 ， 防 止 过 拟 合 ， 其 次 能 选择 有 效 特 征 ， 提 高 性 能 。 如 图 9-6 所 示 ， 最 优 解 出 现在 损失 函数 的 等 值 
线 和 约束 函数 L1 相 切 的 地 方 ， 即 凸 点 ， 而 鞭 形 的 凸 点 往往 出 现在 坐标 轴 上 (系数 w1 或 w2 为 0) ， 最 终 产 生 了 稀 疏 性 。 


L2 正 则 通过 构造 一 个 所 有 参数 都 比较 小 的 模型 ， 防 止 过 拟 合 。 但 L2 正 则 不 具有 稀 琉 性 ， 原 因 如 图 9-7 所 示 ， 约 束 函 数 L2 在 二 维 平 面 下 为 一 个 圆 ， 与 等 值 线 相 切 在 坐标 轴 的 可 能 性 就 小 了 很 多 。 


”> 


图 9-6 LI1 正 则 化 示意 图 


图 9-7 1L2 正 则 化 示意 图 


2. 离 散 化 
LR 处 理 离散 特征 可 谓 得 心 应 手 ， 但 处 理 连 续 特 征 的 时 候 需 要 进行 离散 化 。 通 常 连续 特征 会 包含 大 量 的 反馈 CTR 特 征 、 表 示 语 义 相 似 的 值 特 征 、 年 龄 价格 等 属性 特征 。 
以 年 龄 为 例 ， 可 以 用 业务 知识 分 桶 : 如 用 小 学 、 初 中 、 高 中 、 大 学 、 工 作 的 平均 年 龄 区 间 做 分 桶 ; 也 可 以 通过 统计 量 分 桶 ， 使 各 个 分 桶 内 的 数据 均匀 分 布 。 


反馈 CTR 特 征 的 离散 化 ， 一 般 通 过 统计 量 分 桶 ， 但 在 桶 的 边界 往往 会 出 现 突 变 的 问题 ， 比 如 两 个 桶 分 别 为 0.013 ~ 0.015、0.015 ~ 0.018， 在 边界 左右 的 值 0.01499 和 0.01501 会 带 来 完全 不 同 的 效果 。 
(这 里 给 GBDT+LR 埋 下 一 个 伏笔 。) 


3. 特 征 组 合 

LR 由 于 是 线性 模型 ， 不 能 自动 进行 非 线 性 变换 ， 需 要 大 量 的 人 工 特 征 组 合 。 以 ID 类 特征 为 例 ， 用 户 1D 往 往 有 上 亿 维 (one-hot 处 理 后 的 特征 ) ， 广 告 1D 往 往 有 上 百 万 维 ， 特 征 组 合 会 产生 维度 爆炸 。 

广告 特征 里 往往 有 三 类 维度 (a，u，c) ， 分 别 是 广告 类 特征 、 用 户 类 特征 、 上 下 文 类 特征 。 这 三 类 特征 各 自 互相 组 合 ， 就 产生 了 很 多 种 可 能 性 。 所 以 在 CTR 预 估 模 型 的 早期 ， 主 要 工作 就 是 在 做 人 工 特 
征 工程 。 人 工 特征 工程 不 但 极为 烦琐 ， 还 需要 大 量 的 领域 知识 和 进行 大 量 试 错 工作 。 

4. 优 缺点 

优点 : 由 于 LR 模 型 简单 ， 训 练 时 便于 并 行 化 ， 在 预测 时 只 需要 对 特征 进行 线性 加 权 ， 所 以 性 能 比较 好 ， 往 往 适 合 处 理 海量 ID 类 特征 。 用 1D 类 特征 有 一 个 很 重要 的 好 处 ， 就 是 防止 信息 损失 (相对 于 范 化 
的 CTR 特 征 ) ， 对 于 特征 描述 更 为 细致 。 

缺点 : LR 的 缺点 也 很 明显 ， 首 先 对 连续 特征 的 处 理 需要 先进 行 离散 化 ， 如 上 面 所 说 ， 人 工分 桶 的 方式 会 引入 多 种 问题 。 另 外 LR 需 要 进行 人 工 特征 组 合 ， 这 就 需要 开发 者 有 非常 丰富 的 领域 经 验 ， 才 能 不 
走 弯路 。 这 样 的 模型 迁移 起 来 比较 困难 ， 换 一 个 领域 又 需要 重新 进行 大 量 的 特征 工程 。 


9.3.2 ”GBDT 模 型 


GBDT (Gradient Boosting Decision Tree) 是 一 种 典型 的 基于 回归 树 的 boosting 算 法 。 学 习 GBDT， 只 需要 理解 两 方面 : 


* 梯度 提升 (Gradient Boosting) : 每 次 建树 是 在 之 前 建树 损失 函数 的 梯度 下 降 方向 上 进行 优化 ， 因 为 梯度 方向 〈 求 导 ) 是 函数 变化 最 陡 的 方向 。 不 断 优化 之 前 的 弱 分 类 器 ， 得 到 更 强 的 分 类 器 。 每 一 棵 
树 学 的 是 之 前 所 有 树 学 习 内 容 之 和 的 残 差 。 


` 回归 树 (Regression Tree) : 注意 ， 这 里 使 用 的 是 回归 树 而 非 决 策 树 ， 通 过 最 小 化 log 损 失 函 数 找到 最 合理 的 分 支 ， 直 到 叶子 节点 上 所 有 值 唯 一 〈 残 差 为 0) ， 或 者 达到 预 设 条 件 〈 树 的 深度 ) 。 若 叶子 
节点 上 的 值 不 唯一 ， 则 以 该 节点 上 的 平均 值 作为 预测 值 、 图 9-8 所 示 便 是 回归 树 的 一 个 示例 。 


20 
(14, 16, 24, 26) 


经 常 在 百度 
各 道 作 答 


月 收 和 大于。 澡 在 百 庶 


知 直 探 问 


残 差 . 4=-1，B=1 残 差 ， C=-1, D=1] 残 差 : 4=0，B=0 残 差 . C=0，D=0 
图 9-8 回归 树 示例 图 

回归 树 的 建立 过 程 涉及 两 个 核心 问题 : 

核心 问题 1: 回归 树 如 何 优化 ? 


最 直观 的 想法 ， 如 果 前 一 轮 有 分 错 的 样本 ， 那 边 在 后 面 新 的 分 支 只 需 提高 这 些 分 错 样 本 的 权重 ， 对 于 误 分 类 、 错 分 类 样本 重新 学 习 。 这 种 方法 在 数学 上 可 以 用 残 差 来 解决 ， 比 如 图 9-8 中 ， 第 一 轮训 练 后 
残 差 向 量 为 (-1，1，-1，1) ， 第 二 轮训 练 就 是 为 了 消除 残 差 ， 即 这 些 分 错 的 样本 ， 当 残 差 为 0 或 者 达到 停止 条 件 才 停止。 


那么 哪里 体现 了 Gradient 呢 ”其 实 回 到 第 一 棵 树 结 束 时 想 一 想 ， 无 论 此 时 的 损失 函数 是 什么 ， 无 论 是 均 方 差 还 是 均 差 ， 只 要 它 以 误差 作为 衡量 标准 ， 残 差 向 量 (-1，1，-1，1) 都 是 它 的 全 局 最 优 方 


向 ， 这 就 是 Gradient。 
核心 问题 2: 如 何 将 多 个 弱 分 类 器 组 合成 一 个 强 分 类 器 ? 
通过 加 大 分 类 误差 率 较 小 的 弱 分 类 器 的 权重 ， 通 过 多 棵 权重 不 同 的 树 (能 者 多 劳 ) 进行 打分 ， 最 终 输 出 回归 预测 值 。 
1. 特 征 工 程 


由 于 GBDT 不 善于 处 理 大 量 ID 类 离散 特征 (后 文 会 详细 说 明 ) ， 但 善于 处 理 连续 的 特征 ， 一 般 的 做 法 是 用 各 种 CTR 反 馈 特 征 来 做 交叉 ， 来 学 化 地 表达 信息 。 在 这 种 情况 下 ， 信 息 会 大 量 人 存在 于 动态 特征 
中 ， 而 少量 存在 于 模型 中 (对 比 LR， 信 息 几 乎 都 存在 于 模型 中 ) 。 


2. 优 缺点 
优点 : 读者 可 以 把 树 的 生成 过 程 理 解 成 自动 进行 多 维度 的 特征 组 合 的 过 程 ， 从 根 节点 到 叶子 节点 上 的 整个 路 径 (多 个 特征 值 判断 ) ， 才 能 最 终 决 定 一 棵 树 的 预测 值 。 另 外 ， 对 于 连续 型 特征 的 处 


理 ，GBDT 可 以 拆 分 出 一 个 临界 阔 值 ， 比 如 大 于 0.027 走 左 子 树 ， 小 于 等 于 0.027 (或 者 默认 值 ) 走 右 子 树 ， 这 样 很 好 地 规避 了 人 工 离散 化 的 问题 。 


缺点 : 对 于 海量 的 1D 类 特征 ，GBDT 由 于 树 的 深度 和 棵 数 限制 (防止 过 拟 合 ) ， 不 能 有 效 的 存储 ; 另外 海量 特征 在 也 会 存在 性 能 瓶 瑞 。 工 业 实践 表明 ， 当 GBDT 的 One-Hot 特 征 大 于 10 万 维 时 ， 就 必须 
做 分 布 式 的 训练 才能 保证 不 突破 内 存 限制 。 所 以 GBDT 通 常 配合 少量 的 反馈 CTR 特 征 来 表达 ， 这 样 哩 然 具 有 一 定 的 范 化 能 力 ， 但 是 同时 会 有 信息 损失 ， 对 于 头 部 资源 不 能 有 效 表达 。 


9.3.3 ”GBDT+LR 模 型 


GBDT 常 常用 来 解决 LR 的 特征 组 合 问题 ， 其 主要 实现 原理 是 : 


训练 时 ，GBDT 建 树 的 过 程 相当 于 自动 进行 特征 组 合 和 离散 化 ， 然 后 从 根 节 点 到 叶子 节点 的 这 条 路 径 就 可 以 看 成 是 不 同 特征 进行 的 特征 组 合 ， 用 叶子 节点 可 以 唯一 表示 这 条 路 径 ， 并 作为 一 个 离散 特征 
传 入 LR 进行 二 次 训练 。 


第 人 特征 


线性 分 类 谷 


图 9-9 GBDT+LR 模 型 示例 图 
预测 时 ， 会 先 走 GBDT 的 每 棵 树 ， 得 到 某 个 叶子 节点 对 应 的 一 个 离散 特征 ( 即 一 组 特征 组 合 ) ， 然 后 把 该 特征 以 One-Hot 形 式 传 入 LR 进行 线性 加 权 预 测 。 
1. 改 进 


Facebook 的 方案 在 实际 使 用 中 并 不 可 行 ， 因 为 广告 系统 往往 存在 上 亿 维 的 ID 类 特征 (用户 ID 有 10 亿 维 ， 广告 D 有 上 百 万 维 ) ， 而 GBDT 由 于 树 的 深度 和 棵 数 的 限制 ， 无 法 存储 这 么 多 ID 类 特征 ， 导 致 
信息 损失 。 有 如 下 改进 方案 供 读者 参考 : 


方案 一 ( 见 图 9-10) : GBDT 训 | 练 除 ID 类 特征 以 外 的 所 有 特征 ， 其 他 ID 类 特征 在 LR 阶段 再 加 入 。 这 样 的 好 处 很 明显 ， 既 利用 了 GBDT 对 连续 特征 的 自动 离散 化 和 特征 组 合 ， 同 时 LR 又 有 效 利用 了 ID 类 离 
散 特 征 ， 防 止 信息 损失 。 


上 输入 样本 


根据 GBDT 
下 换 原 始 特 和 伍 


特征 输入 LR 


图 9-10 GBDT+LR 模 型 改进 方案 一 示例 图 


方案 二 ( 见 图 9-11) : GBDT 分 别 训练 ID 类 树 和 非 ID 类 树 ， 并 把 组 合 特征 传 入 LR 进 行 二 次 训练 。 对 于 1D 类 树 可 以 有 效 保留 头 部 资源 的 信息 不 受 损失 ; 对 于 非 ID 类 树 ， 长 尾 资源 可 以 利用 其 汉化 信息 ( 反 
馈 CTR 等 ) 。 但 这 样 做 有 一 个 缺点 ， 介 于 头 部 资源 和 长 尾 资源 中 间 的 一 部 分 资源 ， 其 有 效 信息 既 包含 在 范 化 信息 (反馈 CTR) 中 ， 又 包含 在 ID 类 特征 中 ， 而 GBDT 的 非 1D 类 树 只 存 得 下 头 部 的 资源 信息 ， 所 以 


还 是 会 有 部 分 信息 损失 。 


得 入 样本 


根据 GBDT 
变换 原始 特征 


特征 输入 LR 


图 9-11 GBDT+LR 模 型 改进 方案 二 示例 图 


2. 优 缺点 
优点 : GBDT 可 以 自动 进行 特征 组 合 和 离散 化 ，LR 可 以 有 效 利用 海量 ID 类 离散 特征 ， 保 持 信息 的 完整 性 。 


缺点 : LR 预测 的 时 候 需 要 等 待 GBDT 的 输出 ， 一 方面 GBDT 在 线 预 测 慢 于 单 LR， 另 一 方面 GBDT 目 前 不 支持 在 线 算法 ， 只 能 以 离线 方式 进行 更 新 。 


9.3.4 FM+DNN 模 型 


随 着 深度 学 习 的 逐渐 成 熟 ， 越 来 越 多 的 人 希望 把 深度 学 习 引 入 CTR 预 估 领 域 ， 然 而 由 于 广告 系统 包含 海量 ID 类 离散 特征 ， 如 果 全 用 One-Hot 表 示 ， 会 产生 维度 爆炸 ，DNN 不 支持 这 么 多 维 的 特征 。 目 前 
工业 界 方案 是 FM+DNN， 即 用 FM 做 肉 入 (Embedding) ，DNN 做 训练 。 


FM 的 目标 消 数 如 下 : 


y (xX) = Wo + ,ON tO VV > XX, (9-18 ) 


可 以 看 到 FM 的 前 半 部 分 可 以 理解 成 是 LR， 后 半 部 分 可 以 理解 成 是 特征 交叉 (二 阶 FM 只 支持 二 维特 征 交 叉 ) 。 


DNN 模 型 往往 具有 多 个 隐 层 ， 如 图 9-12 所 示 ，x1、x2 为 输入 ， 深 色 圆 形 代 表 残 差 ， 通 过 ReLU、tanh 等 激活 函数 做 非 线 性 变换 。 残 差 会 反 向 传播 (虚线 部 分 ) ， 并 通过 随机 梯度 下 降 来 更 新 权 值 向 量 ， 
最 终 预 测 时 通过 Sigmoid 函 数 做 归 一 化 输出 (二 分 类 用 Sigmoid 做 归 一 化 ; 多 分 类 用 Softmax 做 归 一 化 ) 。 
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图 9-12 DNN 模 型 示意 图 


FM+DNN 的 具体 做 法 是 ， 对 于 离散 特征 ， 先 找到 其 对 应 的 分 类 领域 (Category Field) ， 并 用 FM 做 嵌入 ， 把 该 分 类 领域 下 的 所 有 特征 分 别 投影 到 这 个 低 维 空间 中 。 以 用 户 表单 (Query) 为 例 ， 如 果 
用 One-Hot 可 能 有 数 十 亿 维 ， 但 是 如 果 用 FM 编码 ， 就 可 以 把 所 有 的 表单 都 映射 到 一 个 200 维 左右 的 向 量 连 续 空 间 里 ， 这 就 大 大 缩小 了 DNN 模 型 的 输入 。 而 对 于 连续 特征 ， 由 于 其 特征 维度 本 来 就 不 多 ， 可 


以 和 FM 的 输出 一 同 输入 到 DNN 模 型 里 进行 训练 。 图 9-13 显 示 了 FM+DNN 的 具体 做 法 : 首先 将 特征 分 为 离散 特征 和 连续 特征 处 理 ， 离 散 特 征 通过 嵌入 函数 转换 为 浮 点 特征 后 ， 与 之 前 的 连续 性 特征 一 起 输 
入 隐藏 层 ， 最 后 对 隐藏 层 的 输出 进行 CTR 预 佑 。 
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图 9-13 FM+DNN 模 型 具体 实施 过 程 示意 图 
FM+DNN 模 型 优 缺 点 如 下 : 
优点 : FM 可 以 自动 进行 特征 组 合 ， 并 能 把 同一 分 类 领域 下 的 海量 离散 特征 投影 到 一 个 低 维 的 向 量 空间 里 ， 大 大 减少 了 DNN 的 输入 。 而 DNN 不 但 可 以 做 非 线性 变换 ， 还 可 以 做 特征 提取 。 


缺点 : 由 于 二 阶 FM 只 支持 二 维 的 特征 交叉 (考虑 性 能 的 因素 常用 二 阶 FM) ， 所 以 不 能 像 GBDT 那 样 做 到 10 维 的 特征 组 合 。 另 外 DNN 模 型 出 于 调 参 复 杂 和 性 能 不 高 的 原因 ， 并 不 适用 于 中 小 型 业务 ， 所 
以 多 数 用 在 大 型 业务 驱动 下 的 CTR 工 程 中 。 


9.3.5 ”MLR 模 型 


MLR 是 LR 的 一 个 改进 ， 它 采用 分 治 的 思想 ， 用 分 片 线性 的 模式 来 拟 合 高 维 空间 的 非 线 性 分 类 面 。 


简单 来 说 ，MLR 就 是 聚 类 LR。 先 对 样本 空间 进行 分 割 。 这 里 有 一 个 超 参 数 m， 用 来 代表 分 片 的 个 数 ， 当 m= 1 时 自动 退化 为 普通 的 LR; m 越 大 ， 拟 合 能 力 越 强 ， 当 然 随 着 m 增 大 ， 其 所 需要 的 训练 样本 数 
也 不 断 增 大 ， 性 能 损耗 也 不 断 增 加 。 阿 里 的 实验 表明 ， 当 m=12 时 ， 表 现 最 好 。 


在 MLR 中 ， 聚 类 部 分 用 Softmax 做 分 区 函数 并 决定 样本 空间 的 划分 ， 预 测 部 分 用 Sigmoid 做 拟 合 函 数 ， 并 决定 空间 内 的 预测 ， 其 计算 公式 如 图 9-14 所 示 。 
X=(x,X,),m ER",x, ER®,xeR™® 
1]3 ”3 f9"™] “他 9 


Hi 


(0)= zj() 1(%) < 一 一 结构 先 验 / 正则 


目 又 活 它 3 位 - 3 
x1: 采 类 参 X2: 分 类 参数 


决定 空间 的 划分 决定 空间 内 的 预测 


图 9-14 MLR 模 型 公式 计算 图 


MLR 被 证 明 在 高 维 空间 内 的 非 线 性 分 类 面 问题 上 ， 有 着 优 于 LR 模型 的 表现 ， 如 图 9-15 实 验 数据 所 示 。 


-1-0.8-0.6-0.4-0.2 0 0.2 0.4 0.6 0.8 1 -1-0.8-0.6-0.4-0.2 0 0.2 0.4 0.6 0.8 1 
a) 训练 集 数据 b) LR 模型 表现 


图 9-15 ”MIR 模型 与 LR 模型 在 非 线 性 问题 上 分 类 效果 对 比 图 


1-0.8-06-04-020 02040608 1 
c) MLR 模型 表现 


图 9-15 ( 续 ) 


MLR 模 型 的 优 缺 点 如 下 : 


优点 : MLR 通 过 先 验 知识 对 样本 空间 进行 划分 ， 可 以 有 效 提升 LR 对 非 线性 的 拟 合 能 力 ， 比 较 适 合用 于 电 商 场景 ， 如 3C 类 和 服装 类 不 需要 分 别 训练 各 自 不 同 的 LR 模 型 ， 学 生 人 和 群 和 上 班 族 也 不 需要 单独 训 
练 各 自 的 LR， 在 一 个 LR 模型 中 即 可 搞定 。 模 型 的 迁移 能 力 比较 强 。 


缺点 : MLR 中 超 参数 m 需 要 人 工 去 调 ， 另 外 还 是 有 LR 共 性 的 缺点 ， 如 需要 人 工 特征 组 合 和 人 工 离散 化 分 桶 等 。 


9.4 CTR 预 估 在 工业 上 的 实现 


工业 上 的 CTR 预 估 分 为 两 个 主要 的 组 成 部 分 一 一 线 下 部 分 和 线 上 部 分 。 首 先 需 要 在 线 下 部 分 中 根据 已 有 的 数据 训练 模型 ， 基 于 logloss 指 标 和 AUC 指 标 评估 CTR 预 估 模 型 的 效果 ， 直 到 达到 上 线 标准 。 上 
线 后 ， 利 用 线 上 数据 做 预测 ， 同 时 根据 线 上 的 预测 效果 ， 一 方面 关注 随 着 评估 时 间 增 加 ， 预 测 效 果 的 变化 〈 如 果 时 间 影 响 比 较 大 ， 需 要 考虑 如 何 更 快 地 分 发 模型 ) ; 另 一 方面 调整 模型 参数 ， 实 现 模型 优 
化 。 线 下 模型 训练 是 整个 CTR 预 估 过 程 的 基础 ， 特 征 工程 、 模 型 训练 都 是 CTR 预 估 中 极其 重要 的 环节 。 而 线 上 优化 是 CTR 预 估 准 确 率 提升 的 重要 保障 。 读 者 在 日 后 接触 到 工业 级 的 CTR 预 估 的 过 程 中 ， 可 以 感 
受 CTR 预 估 的 线 下 过 程 和 线 上 过 程 之 间 的 相互 作用 。 


9.5 ”CTR 预 估 在 PaddlePaddle 上 的 实现 


在 本 节 中 ， 将 介绍 一 个 能 提供 数据 集 的 网 站 Kaggle， 并 指导 读者 基于 Google 提 出 的 Wide&Deep Learning Model 框 架 ， 在 PaddlePaddle 中 实现 现实 中 的 CTR 预 估 。 


9.5.1 数据 集 
Kaggle 是 由 联合 创始 人 、 首 席 执行 官 安东尼 :高 德 布 卢 姆 (Anthony Goldbloom) 2010 年 在 墨尔本 创立 的 开源 数据 库 网 站 ， 主 要 为 开发 商 和 数据 科学 家 提供 举办 机 器 学 习 竞 赛 、 托 管 数据 库 、 编 写 和 分 
享 代码 的 平台 。 该 平台 迄今 为 止 已 经 吸引 了 超过 80 万 名 数据 科学 家 的 关注 。 


Click-Through Rate Prediction 是 移动 广告 DSP 公 司 Avazu 在 Kaggle 上 举办 的 广告 点 击 率 预 测 的 比赛 。 测 试 数据 集 是 10 天 的 点 击 数据 ， 按 时 间 顺 序 排列 ， 测 试 集 是 1 天 的 广告 点 击 数据 ， 以 此 来 测试 模 
型 预测 准确 率 ， 如 表 9-2 所 示 。 


表 9-2 Click-Through Rate Prediction 数 据 集 说 明 
id ad identifier ， 广 告 编号 
click 0/1 for non-cliclyclick， 判 断 是 否 点 击 ， 点 击 则 为 1， 否则 为 0 
format 1s YYMMDDHH, so 14091123 means 23:00 on Sept. 11, 2014 UTC. 


时 间 ， 前 2 位 代表 年 份 ，3-4 位 代表 月 份 ，5-6 位 代表 日 期 ， 最 后 两 位 代表 整 点 时 间 
Cl anonymized categorical variable， 经 过 处 理 后 的 分 类 变量 
banner pos 位 置 

ed 位 置 id 

site domain 网 页 所 在 领域 

site category 网 页 分 类 

app id 应 用 id 

app_domain 应 用 所 在 领域 

app_category 应 用 分 类 

device i 设备 id 

device ip 设备 ip 

device model 设备 模型 

device type 设备 类 型 

device conn type 设备 连接 类 型 


Cl14-C21 


anonymized categorical variables ， 其 他 指标 


注意 ”数据 的 下 载 地 址 为 https://www.kaggle.com/c/avazu-ctr-prediction/data。 


9.5.2 ”预测 模型 选择 和 构建 


来 完成 CTR 预 测 任 务 。 


注意 更 为 详细 的 关于 PaddlePaddle 上 CTR 的 代码 实现 ， 


而 CIR 预 估 的 完整 代码 请 访问 以 下 github 链 接 : https://github.com/PaddlePaddle/models/tree/develop/ctr。 


模型 的 结构 如 图 9-16 所 示 。 


请 参考 说 明文 档 : http://www.paddlepaddle.org/docs/develop/models/ctt/README.html。 
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Wide Models Wine & Deep Models Deep Models 
图 9-16 ”Wide&Deep Learning 模 型 结构 图 
1. 模 型 输入 
模型 的 整体 输入 为 3 个 参数 : 
. dnn_input: 用 于 DNN 训 练 。 
. lt_input: 用 户 LR 训练 。 
. click: 预测 目标 是 否 点 击 ， 点 击 则 值 为 1， 否 则 值 为 0。 
这 一 部 分 的 实现 代码 如 代码 清单 9-1 所 示 。 
代码 清单 9-1 模型 输入 部 分 代码 


# 用 于 DNN 训 练 的 输入 

dnn merged input = layer.datal( 

name = 'dnn input", 

type = paddle.data type.sparse binary vector(self.dnn input dim)) 

# 用 于 LR 训练 的 参数 

lr merged input = layer.data(name = "LT input', 
type = paddle.data type.sparse vector(self.]r input dim)) 


click = paddle.layer.data (name='click', 
type = dtype.dense vector (1)) 


2. 宽 度 设 置 
宽度 设置 部 分 在 函数 build_lr_ submodel 中 实现 ， 使 用 LR 模 型 ， 激 活 函 数 使 用 ReLU， 这 一 部 分 代码 如 代码 清单 9-2 所 示 。 


代码 清单 9-2 ”模型 宽度 设置 部 分 代码 


# 建立 1r 子 模型 
def build lr submodel (): 
# 设置 fc 层 参数 
fc = layer.fcl( 
input = lr merged input, name = "lr', 
act = paddle.activation.Relu()) 
return fc 


深度 设置 部 分 使 用 标准 的 多 层 DNN 实 现 ， 在 代码 中 为 函数 build_dnn_submodel 这 一 部 分 代码 ， 如 代码 清单 9-3 所 示 。 
代码 清单 9-3 ”模型 深度 设置 部 分 代码 


# 建立 DNN 子 模型 
def build dnn submodel () : 
# DNN 散 入 数据 设置 
dnn embedding = layer.fc(input = dnn merged input, 
size = dnn layer dims[0]) 下 
_input layer = dnn embedding 
for i, dim in enumerate (dnn layer dims[1:]) 
fc = layer.fcl( 
input = jinput layer 
size = dim, 
act = paddle.activation.Relu(), 


__ name = 'dnn-fc-%d' $$ i) 
# 更 新 input layer 
_input lJayer = fc 


return jinput layer 


4 联合 函数 
联合 函数 combine_submodels 输 入 之 前 建立 的 DNN 和 LR 子 模型 ， 用 Simoid 函 数 作为 激活 函数 ， 输 出 值 为 (0，1) 之 间 的 浮 点 数 ， 作 为 预测 值 ， 函 数 片 段 如 代码 清单 9-4 所 示 。 
代码 清单 9-4 ”联合 函数 部 分 代码 


DNN 和 LR 两 个 子 模型 合并 
def combine submodels (dnn, 1r): 
# 归并 两 个 子 模型 ， 形 成 merge layer 
merge layer = layer.concat (input = [dnn, 1r]) 
fc = layer.fcl( 
input = merge layer 
size = 1, 而 
name = "OUtPUt "， 
# 利用 Sigmoid 函 数 估计 CTR， 将 输出 一 个 0 到 1 之 间 的 浮 点 数 
act = paddle.activation.Sigmoid() 
return fc 


总 


5. 训 练 


训练 利用 train 函 数 实 现 ， 其 具体 代码 及 参数 设置 如 代码 清单 9-5 所 示 。 


代码 清单 9-5 ”训练 部 分 代码 


# 建立 DNN、LR 子 模型 


lr = build lr submodel () 

output = combine submodels (dnn, 1r) 

# 建 立 损 失 函 数 

classification cost = paddle.layer.multi binary label cross entropy cost ( 
input=output, label=click) 


paddle.init (use gpu=False, trainer count=11) 


params = paddle.parameters.create (classification cost) 


optimizer = paddle.optimizer.Momentum (momentum=0) 


trainer = paddle.trainer.SsGD( 
cost=classification cost, parameters=params, update equation=optimizer) 


dataset = AvazuDataset (train data path, n records as test=test set size) 


def event handler (event): 
if isinstance (event, paddle.event.EndIiteration): 
If event.batch id $ 100 == 0: 
logging.warning ("Pass %d, Samples %d, Cost %f" 要 ( 
event.pass id, event.batch id * batch size, event.cost)) 


if event.batch id $ 1000 == 0: 
result = trainer.test( 
reader=paddle.batch (dataset .test, batch size=1000), 
feeding=field index) 
logging.warning ("Test %d-%d, Cost %f" $ (event.pass id, event.batch id 
result ,cost)) 


trainer.train( 
reader = paddle.batch( 
paddle.reader.shuffle (dataset.train, buf size = 500) 
batch size = batch size), 

# 将 领域 标记 作为 输入 进行 标注 


feeding = field index, 
event handle = event handler, 
num passes = 100) 


通过 上 述 5 个 步骤 ， 一 个 完整 的 Wide&Deep Learning 模 型 便 训练 完成 了 ， 下 面 将 通过 真实 的 数据 集 ， 更 为 具体 地 在 PaddlePaddle 上 实现 完整 的 CTR 预 估 模 型 的 训练 、 预 测 过 程 。 


9.5.3 ”PaddlePaddle 完 整 实现 


本 小 节 将 完整 叙述 CTR 预 估 模 型 在 PaddlePaddle 平 台 的 代码 实现 ， 请 读者 跟着 流程 复 现 PaddlePaddle 进 行 CTR 预 估 的 完整 过 程 。 
1. 数 据 下 载 


访问 Kaggle 数 据 集 网 站 上 的 Avazu 数 据 集 (https://www.kaggle.com/c/avazu-ctr-prediction/data) ， 下 载 训练 集 数据 (train.gz，1.04GB) 和 测试 集 数据 (test.gz) 。 页 面 如 图 9-17 所 示 ( 注 : 实 
际 上 提供 的 是 *.gz 文 件 ， 需 要 解压 后 得 到 ) 。 
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图 9-17 Kagele 数 据 集 页 面 截图 
2. 环 境 准 备 


这 里 代码 实现 环境 为 Mac OS 12.10 (8GB 内 存 ，128GB 固 态 硬盘 ) ， 首 先 下 载 CTR 预 估 的 代码 : 


$ git clone https://github.com/PaddlePaddle/models.git 
$ cd models 


将 train.gz 解 压 后 得 到 的 train.csv 复 制 到 上 述 代码 所 在 的 文件 夹 内 ， 并 重 命名 为 train.txt (大 约 6GB) ， 这 里 假设 读者 将 ctr 文 件 夹 内 的 所 有 内 容 拷贝 到 了 ~/workspace 路 径 下 : 


$ cp train.csv ~/workspace/train.txt 


3. 环 境 准备 


启动 PaddlePaddle 的 纯 CPU 镜 像 : 


$ docker run -it -7 ~/workspace:/home/workspace --rm paddlepaddle/paddle:1latest /bin/bash 
以 Mac OS 12.10 下 运行 上 述 代 码 为 例 ， 在 /home/workspace 文 件 夹 下 ， 将 有 如 下 所 示 的 文件 内 容 : 


root@cdll3afae508:/home/workspace# ls 
README .md dataset.md jimages network conf.py reader.py test.txt train.py utils.py avazu data processer.py housing.py infer.py network conf.pyc reader.pyc trair 


4. 数 据 准 备 


在 终端 执行 下 列 代码 ， 进 行 数据 准备 操作 ， 生 成 演示 数据 : 


$ mkdir -p output; Python avazu data processer.py --data path train.txt --output dir output --num lines to detect 1000 --test set size 100 


操作 完毕 后 ，3 ~ 5 分 钟 后 ， 终 端 将 会 有 如 下 所 示 的 内 容 打印 在 屏幕 上 : 


rootecdq113afae508 : /home/workspace# mkdir -p output; Python avazu data processer.py --data path train.txt --output dir output --num lines to detect 1000 --test set size 100 


WARNING:paddle:detecting dataset 

INFO:paddle:1load trainset from train.txt 
INFO:paddle:1load 100000 records 

INFO:paddle:write to output/train.txt 
INFO:paddle:1load testset from train.txt 
INFO:paddle:write to output/test.txt 

INFO:paddle:1load inferset from train.txt 
INFO:paddle:write to output/infer.txt 
INFO:paddle:write data meta into output/data.meta.txt 
5. 模 型 训练 


在 终端 执行 下 列 代码 ， 进 行 模型 训练 操作 : 


$ Python train.py --train data path ./output/train.txt --test data path ./output/test.txt --data meta file ./output/data.meta.txt --model type=0 


练 耗 时 大 约 3 分 钟 ) ， 终 端 将 输出 以 下 结果 : 


训 


练 结束 后 ( 训 


rootecdq113afae508 : /home/workspace# Python train.py --train data Path ./output/train.txt --test data path ./output/test.txt --qata meta file ./output/data.meta.txt --model type= 


26 17:13:06.640563 16 Util.cpp:166] commandline: --use gpu=False --trainer count=1 
INFO:paddle:dnn input dim: 61 


INFO:paddle:lr input dim: 10040001 
T11126 17:13:06.,.754720 16 GradientMachine.cpp:94] Initing parametershttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17642/O0EBPS/Text/.. 
126 LT7:13:07.287757 16 GradientMachine.cpp:101] Init parameters done. 


INFO:paddle:1load trainset from ./output/train.txt 
WARNING:paddle:Pass 0, Samples 0, Cost 0.686135, {} 
INFO:paddle:1load testset from ./output/test.txt 
WARNING:paddle:Test 0-0, Cost 0.674791, {} 


WARNING:paddle:Pass 9, Samples 0, Cost 0.449101, {} 
INFO:paddle:1load testset from ./output/test.txt 
WARNING:paddle:Test 9-0, Cost 0.505487, {} 


执行 完 训练 操作 后 ， 检 查 文件 夹 ， 会 发 现 多 了 许多 名 字 类 似 于 “ctr models-pass-0-batch-0-test-0.674790788405.tar.gz” 的 新 文件 ，pass-0 表 示 是 第 1 趟 拟 合 获得 的 模型 ，batch-0 表 示 是 第 1 趟 中 


的 第 1 个 批 次 ， 后 面 的 数字 0.67.…… 可 以 理解 为 损失 ， 数 字 越 小 说 明 CTR 预 估 模 型 越 准确 。 


6. 模 型 预测 


在 终端 执行 下 列 代码 ， 进 行 模型 训练 操作 : 


$ Python infer.py --model gz path ctr models-pass-9-batch-0-test-0.505487498671.tar.gz --qata path ./output/infer.txt --prediction output path ./output/predictions.txt --data n 


注意 ”这 部 分 代码 中 ， ctt_models-pass-9-batch-0-test-0.505487498671.tat.8z 需 要 替换 成 文件 夹 中 实际 生成 的 +.gz 文 件 ， 实 际 上 输入 ctr， 再 按 tab 键 ， 会 自动 补 全 至 ctt_models-pass-， 只 需要 再 输入 趟 数 ( 即 


Pass 数 ) ， 再 按 tab 键 就 能 补 全 所 需要 的 模型 文件 了 。 


执行 完 模型 预测 代码 ， 大 约 2 分 钟 后 终端 将 打印 以 下 内 容 : 


root@cd1ll3afae508:/home/workspace# Python infer.py --model gz path ctr models-pass-9-batch-0-test-0.505487498671.tar.gz --data path ./output/infer.txt --prediction output patn 
I1126 17:18:17.086571 83 Util.cpp:166] commandline: --use gpu=False --trainer count=1 
[INFO 2017-11-26 17:18:17,092 infer.py:44] create CTR model 
[INFO 2017-11-26 17 17,103 reader.py:62] dnn input dim: 61 
[INFO 2017-11-26 17:18:17,104 reader.py:63] lr input dim: 10040001 
[INFO 2017-11-26 17:] 了 7 让 ] load model parameters from ctr models-pass-9-batch-0-test-0.505487498671.tar.gz 
] 1 
7 
6 


L / is 
[INFO 2017-11-26 ] :18,230 infer.py:62] infer datahttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17642/0EBPS/Text/... 
[INFO 2017-11-26 1 18,232 reader.py:27] load inferset from ./output/infer.txt 
[WARNING 2017-11-2 :18:18,234 infer.py:66] write predictions to ./output/predictions.txt 


~] Oo Co co co co coD 


通过 上 述 终端 结果 读者 不 难 发 现 ， 预 测 结果 已 经 被 写 入 一 个 新 文件 predictions.txt 里 面 了 ， 打 开 这 个 文件 ， 观 察 CTR 预 估 的 最 终结 果 ， 在 本 书 所 实现 的 环境 中 ，predictions.txt 的 内 容 如 下 : 


本 章 小 结 


9.1 节 介绍 了 CTR 的 定义 ， 以 及 CTR 预 估 与 推荐 算法 的 异同 ，CTR 是 一 个 需要 用 精确 计算 用 来 排序 的 参考 因子 ， 而 推荐 算法 并 不 需要 精确 的 计算 结果 。 同 时 介绍 了 CTR 预 估 效 果 的 评估 标准 一 一 logloss 和 


AUC 指 标 。 


练 、 上 线 调整 这 三 个 阶段 需要 读者 记 住 。 特 别 是 特征 工程 中 的 特征 选择 ， 需 要 读者 在 实际 的 CTR 预 估 问 题 中 加 以 重视 。 


9.2 节 概述 了 CTR 预 估 中 涉及 的 基本 过 程 ， 特 征 工程 、 模 型 训 


9.3 节 介绍 了 工业 上 CTR 预 估 的 常见 模型 及 各 自 的 优 缺 点 ，LR、GBDT、GBDT+LR 和 FM+DNN 需 要 读者 重点 理解 。MLR 是 一 个 新 近 提 出 的 LR 模 型 的 变种 ， 仪 供 读者 参考 ， 作 为 一 个 未 来 改进 的 思路 。 
9.4 节 介绍 了 工业 过 程 中 涉及 的 线 下 过 程 和 线 上 过 程 ， 希 望 读 者 在 具体 接触 到 相关 项 目 时 能 够 很 好 把 握 这 两 个 阶段 。 
9.5 节 介绍 了 CTR 预 估 在 PaddlePaddle 上 的 实现 模型 和 代码 ， 希 望 读者 能 够 跟着 本 书 的 流程 ， 实 现 简单 的 CTR 预 估 ， 复 现 关键 结果 。 更 期 待 读者 能 够 自行 实现 其 他 的 CTR 预 估 模 型 ， 做 到 举一反三 。 


学 完 本 章 ， 和 希望 读者 能 对 CTR 预 估 及 CTR 预 佑 流程 中 涉及 的 算法 、 模 型 有 初步 的 理解 和 认识 ， 并 能 利用 文中 的 示例 用 代码 实现 简单 的 CTR 预 估 ， 复 现 文章 中 的 CTR 过 程 。 


第 10 草 算法 优化 


前 几 章 主 要 讲述 了 典型 的 深度 学 习 的 模型 及 其 在 图 像 识 别 等 领域 的 应 用 。 本 章 将 在 此 基础 上 进一步 讲解 如 何 系统 地 构建 一 个 深度 学 习 项 目 ， 以 及 如 何 监控 并 根据 实验 反馈 来 改进 深度 学 习 系统 。 首 先 ， 
将 介绍 在 深度 学 习 中 常 出 现 的 一 些 概念 ， 为 深度 学 习 项 目的 开展 英 定 基础 。 然 后 系统 地 摘 述 一 个 深度 学 习 项 目的 实践 流程 ， 从 确定 目标 、 迭 代 过 程 ， 到 不 断 地 在 实验 中 进行 观察 以 判断 系统 当前 所 处 的 状 
态 ， 并 据 系统 所 处 的 状态 给 出 不 同 的 策略 来 优化 系统 、 提 升 模型 能 力 。 最 后 给 出 一 些 工 程 上 选择 并 调整 超 参 数 的 经 验 性 建议 ， 使 读者 能 够 更 好 地 搭建 适合 自己 的 深度 学 习 系统 。 


学 完 本 章 ， 和 希望 读者 能 够 做 到 以 下 几 点 : 
(1) 能 够 科学 地 设计 一 个 深度 学 习 系统 的 实践 流程 。 
(2) 能 够 对 实验 中 出 现 的 现象 进行 观察 ， 并 判断 系统 当前 所 处 状态 。 


(3) 能 够 针对 系统 中 出 现 的 问题 选择 不 同 的 优化 策略 提高 系统 的 能 力 。 


本 节 介绍 深度 学 习 中 常见 的 基本 概念 。 


10.1.1 训练、 验证 和 测试 集 


同 传统 机 器 学 习 模 型 类 似 ， 深 度 网 络 模型 的 构建 通常 需要 将 样本 分 成 独立 的 三 部 分 : 训练 集 (Train Set) 、 验 证 集 (Validation Set) 和 测试 集 (Test Set) 。 一 般 来 说 ， 在 数据 集 规模 很 大 ， 比 如 百 万 
数量 级 时 ， 训 练 集 、 验 证 集 和 测试 集 的 划分 可 以 是 989%、19%、1%6 或 者 99.5%、0.4%、0.1%。 训 练 集 主要 用 来 训练 模型 。 在 训练 集 上 可 以 计算 训练 误差 ， 通 过 降低 训练 误差 可 以 使 模型 进行 学 习 和 优化 。 


一 个 在 训练 集 上 训练 好 的 模型 ， 在 测试 集 上 也 应 具有 较 好 的 效果 。 机 器 学 习 的 一 个 前 提 假 设 就 是 训练 集 和 测试 集 是 独立 同 分 布 的 。 在 这 个 前 提 下 ， 将 模型 作用 在 测试 集 上 ， 可 以 评估 训练 模型 的 泛 化 能 
力 。 通 过 降低 模型 的 泛 化 误差 ， 可 以 提高 模型 的 表达 能 力 。 


可 通过 设置 超 参数 来 控制 算法 的 行为 或 模型 复杂 度 。 超 参数 与 参数 的 区 别 在 于 ， 它 并 不 是 算法 本 身 可 以 学 习 出 来 的 。 通 常 将 训练 集 分 为 两 个 不 相交 的 子 集 : 一 个 仍然 作为 训练 集训 练 模型 ， 另 一 个 就 是 
验证 集 ， 用 来 学 习 超 参数 ， 它 是 训练 算法 观察 不 到 的 样本 集合 。 


10.1.2” 偏 关 和 方差 


统计 学 为 机 器 学 习 提供 了 很 多 理解 模型 特性 、 分 析 模 型 泛 化 能 力 的 工具 ， 比 如 偏差 和 方差 。 


偏差 (bias) 是 期 望 预测 与 真实 标签 的 误差 ， 定 义 为 : 


其 中 f(x) 表示 模型 { 对 测试 样本 x 的 预测 输出 的 期 望 值 ，y 是 x 的 真实 标签 。 它 度量 了 期 望 预测 与 真实 标签 的 偏离 程度 ， 反 映 的 是 模型 本 身 的 精准 度 ， 即 模型 本 身 的 表达 能 力 。 


方差 (variance) 定义 为 : 


z(x) = Ep [(f(x; D) — f(x)) ( 10-2 ) 


其 中 f(x; D) 表示 在 训练 集 上 ， 模 型 {对 测试 样本 x 的 预测 输出 。 方 差 用 于 度量 用 不 同 训 | 练 集 得 到 的 输出 结果 与 模型 输出 期 望 之 间 的 误差 ， 即 模型 预测 的 波动 情况 。 它 刻画 了 学 习性 能 随 训练 集 变 动 而 产 
生 的 变化 ， 即 数据 扰动 造成 的 影响 。 


由 此 可 见 ， 偏 差 和 方差 从 不 同 的 两 个 角度 刻画 估计 量 的 误差 ,图 10-1 所 示 是 一 种 直观 描述 方差 偏差 影响 的 方法 。 


低 方 老 


低 仿 帮 


图 10-1 方差 和 偏差 


假设 灰色 靶 心 区 域 是 真实 标签 所 在 区 域 ， 即 模型 输出 想 要 拟 合 的 区 域 。 黑 色 点 表示 模型 对 不 同 数据 集中 的 样本 输出 的 预测 值 。 由 此 可 见 ， 当 方差 较 低 的 时 候 ， 黑 色 点 比较 集中 ， 而 方差 较 高 的 时 候 ， 黑 
色 点 则 比较 分 散 。 当 偏差 较 低 的 时 候 ， 黑 色 点 更 靠近 靶 心 区 域 ， 表 示 预 测 效果 比较 好 ; 反之 则 离 靶 心 较 远 ， 预 测 效果 变 差 。 


理想 情况 下 ， 方 差 和 偏差 都 应 当 尽 可 能 低 ， 即 图 10-1 中 左上 图 表现 的 情况 ， 此 时 模型 的 预测 值 集 中 在 靶 心 区 域 ， 即 全 部 落 在 真实 标签 的 区 域 ， 体 现 了 模型 良好 的 表达 能 力 。 


给 定 一 个 学 习 目 标 ， 在 训练 开始 阶段 ， 由 于 训练 较 少 ， 学 习 不 足 ， 模 型 拟 合 能 力 不 强 ， 预 测 值 和 真实 标签 差距 很 大 ， 即 偏差 很 大 。 而 因为 模型 无 法 较 好 地 表达 数据 ， 数 据 集 的 扰动 也 无 法 产生 明显 的 变 
化 ， 即 方差 很 小 ， 此 时 是 欠 拟 合 的 情况 。 


随 着 训练 的 进行 ， 模 型 的 学 习 能 力 不 断 增强 ， 开 始 能 够 捕捉 训练 数据 扰动 带 来 的 影响 。 在 充分 训练 后 ， 轻 微 的 扰动 都 会 导致 模型 友 生 明显 的 变动 ， 此 时 已 经 能 够 学 习 训 | 练 数据 集 自身 特定 的 、 而 非 所 有 
数据 集 通用 的 特性 ， 这 说 明 模 型 偏差 较 小 而 方差 较 大 ， 这 是 过 拟 合 的 表现 。 


模型 的 训练 程度 可 以 用 模型 复杂 度 衡量 ， 图 10-2 所 示 直 观 表示 了 随 着 模型 复杂 度 的 提升 ， 偏 差 逐 渐 减 小 ， 方 差 逐渐 增 大 。 当 方差 和 偏差 都 较 小 的 时 候 ， 对 应 的 就 是 最 优 模型 复杂 度 。 


方 郑 


模型 复 洒 上 度 


图 10-2 ”模型 复杂 度 与 误差 的 关系 


10.2 评估 


本 节 介 绍 如 何 评估 深度 学 习 实验 的 进展 。 只 有 明确 深度 学 习 实 验 的 目标 和 评估 方式 ， 才 能 调整 策略 、 优 化 系统 ， 得 到 更 好 的 实验 效果 。 


10.2.1 选 定 评估 目标 
大 多 数 深度 学 习 算法 都 涉及 某 种 形式 的 优化 。 优 化 指 的 是 改变 模型 的 参数 以 最 小 化 或 最 大 化 特定 目标 的 过 程 。 通 常情 况 下 ， 最 优化 的 目标 是 最 小 化 误差 或 者 代价 函数 。 在 实际 搭建 一 个 深度 学 习 项 目 
中 ， 要 做 的 第 一 步 就 是 确定 优化 的 目标 ， 即 使 用 什么 误差 度量 来 指导 接 下 来 的 所 有 工作 。 同 时 也 应 该 了 解 目标 性 能 大 致 能 够 达到 的 级 别 。 


理论 上 讲 ， 即 使 有 无 限 的 训练 数据 ， 并 且 恢 复 了 真正 的 概率 分 布 ， 也 不 可 能 实现 绝对 零 误 差 。 这 是 因为 输入 特征 可 能 无 法 包含 输出 变量 的 完整 信息 ， 或 是 因为 系统 本 质 上 是 随机 的 。 更 何况 在 实际 的 工 
程 项 目 中 ， 研 究 者 能 够 获得 的 训练 数据 也 是 有 限 的 。 学 界 认为 贝 叶 斯 最 优 误差 是 理论 上 能 够 达到 的 最 低 误 差 ， 而 人 类 的 水 平 较为 接近 贝 叶 斯 最 优 误差 ， 所 以 有 时 可 以 将 人 类 水 平 作为 贝 叶 斯 最 优 误差 的 
一 个 近似 。 


另外 一 个 需要 考虑 的 问题 是 度量 的 选择 。 可 以 用 来 评估 学 习 算法 的 性 能 度量 有 很 多 ， 通 常用 一 个 单一 指标 来 度量 模型 的 性 能 ， 比 如 准确 率 或 召回 率 等 。 当 必须 同时 考虑 两 种 或 多 种 性 能 度量 的 时 候 ， 也 
可 以 采取 加 权 平 均 的 方法 。 一 般 来 讲 ， 在 学 术 研 究 中 ， 研 究 者 可 以 根据 已 有 研究 公布 的 基准 结果 来 估计 性 能 度量 。 在 现实 世界 中 ， 模 型 性 能 的 度量 应 该 受 成 本 、 安 全 、 用 户 需求 等 多 种 因素 综合 影响 。 


10.2.2 ”和 近 代 过 程 


第 1 章 中 提 到 了 导数 的 概念 。 导 数 在 最 优化 问题 中 起 着 重要 作用 ， 因 为 它 可 以 反映 如 何 更 改变 量 6 来 略微 改善 参数 6 为 的 函数 f (6) 。 因 此 可 以 通过 将 往 导 数 的 反方 向 移动 一 小 步 来 减 小 f (6) 。 这 种 技 
术 称 为 梯度 下 降 。 


在 网 络 的 反 向 传播 过 程 中 回 传 相关 误差 ， 使 用 梯度 下 降 更 新 参数 值 ， 通 过 计算 误差 相对 于 参数 的 梯度 ， 在 代价 函数 梯度 的 相反 方向 更 新 参数 ， 最 终 使 模型 收敛 。 网 络 更 新 参数 的 公式 为 : 


d= 0— nxXVoL(f(x;0 


其 中 ,L (f(x; 9) ，y) 为 代价 函数 ， 度 量 了 模型 预测 f (x; 9) 与 实际 值 的 偏差 ; AgL (f (x; 6) ，y) 是 代价 函数 相对 于 其 参数 的 梯度 ; n 是 学 习 率 。 


过 这 种 迭代 方式 反复 不 断 地 更 新 参数 ， 可 以 寻找 到 使 网 络 性 能 较 优 的 参数 。 


10.2.3 ”大 拟 合 和 过 拟 合 


深度 学 习 中 ， 主 要 从 以 下 两 个 角度 来 评价 学 习 算法 效果 的 好 坏 : 
降低 训练 集 上 的 误差 ， 即 训练 误差 。 
` 减少 训练 集 上 的 误差 和 测试 集 上 的 误差 的 差距 。 


这 两 个 角度 体现 了 机 器 学 习 面 临 的 两 个 主要 挑战 : 欠 拟 合 和 过 拟 合 。 


欠 拟 合 是 指 模型 不 能 在 训练 集 上 获得 足够 低 的 误差 ， 即 模型 在 训练 集 上 的 误差 比 人 类 平均 误差 要 高 ， 此 时 模型 还 有 提升 的 空间 ， 可 以 通过 增加 模型 深度 和 训练 次 数 或 选择 一 些 优化 算法 继续 提高 模型 的 


表现 能 力 。 


而 过 拟 合 是 指 学 习 时 选择 的 模型 所 包含 的 参数 过 多 ， 以 至 于 这 一 模型 对 已 知 数据 预测 得 很 好 ， 但 对 未 知 数据 预测 得 很 差 的 现象 。 过 拟 合 通常 称 为 模型 的 泛 化 能 力 不 好 ， 可 以 通过 增加 数据 集 、 加 入 一 些 


正则 化 方法 或 者 改变 超 参数 来 进行 调整 。 


10.3 ” 调 优 策略 


本 节 利 用 上 一 节 中 介绍 的 评估 系统 所 处 状态 的 方法 ， 分 别 通 过 降低 偏差 和 降低 方差 两 个 方面 来 介绍 优化 系统 的 策略 。 


10.3.1 ”降低 偏差 


深度 网 络 模型 优化 算法 主要 依据 最 小 化 或 最 大 化 的 目标 函数 L (f (x () ; 6) ，y 由 ) ， 更 新 对 模型 的 训练 和 表达 能 力 造成 影响 的 参数 ， 使 这 些 参数 达到 或 尽 可 能 接近 目标 函数 的 最 优 值 ， 从 而 提高 模 


型 的 学 习 能 力 ， 获 得 预期 的 网 络 模型 。 当 模型 出 现 从 拟 合 的 状况 时 ， 可 以 通过 调整 优化 算法 来 改善 模型 的 训练 ， 降 低 模型 的 预测 偏差 ， 提 升 模型 的 表现 能 力 。 
1. 随 机 梯度 下 降 


随机 梯度 下 降 (Stochastic Gradient Descent，SGD) 是 最 常见 的 优化 算法 ， 它 对 每 个 训练 样本 计算 反 向 梯度 ， 并 进行 参数 更 新 ， 从 而 保证 执行 速度 很 快 。 
二 J (i). ,0) 
OG=0— nxXVoL(f(x ;0),y ) 


x 中) 是 第 次 训练 的 样本 ， 是 该 样本 的 真实 标签 ， 是 学 习 率 。 在 实践 中 一 般 需 要 随 训练 的 次 数 减 小 学 习 率 ， 使 得 模型 优化 能 够 稳定 ， 逐 渐 收敛 到 局 部 最 小 值 。 


(10-3 ) 


由 于 随机 梯度 下 降 对 每 个 样本 都 进行 更 新 ， 使 得 参数 的 变化 过 于 频繁 ， 参 数 之 间 的 方差 偏 高 ， 从 而 造成 不 同 程度 的 代价 函数 波动 。 如 图 10-3 所 示 ， 每 个 训练 样本 中 高 方差 的 更 新 参数 会 导致 代价 函数 大 


幅度 波动 。 
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图 10-3 ”随机 梯度 下 降 中 出 现 的 代价 函数 大 幅度 波动 现象 
2.Minibatch 


SGD 优 化 方法 具有 速度 快 的 优势 ， 但 由 于 采用 逐个 样本 进行 梯度 更 新 的 方式 ， 容 易 造 成 目标 函数 震荡 ， 其 收 傅 性 能 欠 佳 。 小 批量 梯度 下 降 (Mini Batch Gradient Descent) 是 对 SGD 的 一 种 改进 ， 采 
用 小 批量 的 数据 进行 梯度 更 新 ， 即 每 个 批量 是 整个 数据 集 的 一 个 子 集 ， 每 次 对 1 个 批量 中 的 m 个 训练 样本 更 新 参数 。 小 批量 是 随机 抽取 的 ,减少 了 训练 数据 集 带 来 的 元 余 性 和 随机 性 ， 因 此 减少 了 由 于 频繁 更 
新 造成 的 代价 函数 的 波动 ， 使 得 收敛 更 稳定 ， 从 而 效果 更 好 。 同 时 小 批量 的 训练 方式 也 避免 了 使 用 大 批量 数据 面临 的 计算 量 开销 大 、 计 算 速 度 慢 的 问题 。 


算法 : 小 批量 梯度 下 降 在 第 KK 个 训练 迭代 的 更 新 
Require: 学 习 率 
Requite: 初始 化 模型 参数 0 
while 为 满足 停止 准则 do 
从 训练 集中 采样 m 个 样本 {x “1 ，.…，xm)} 作 为 一 个 小 批量 ， 样 本 x “i 的 真实 标签 为 y 0) 


1 m i i 
计算 梯度 信 计 :Tm 人 (7 (0), 攻 | 


参数 更 新 : = On ~ 
end while 


图 10-4 所 示 通 过 改变 mini batch 尺 寸 展 示 了 不 同 批量 大 小 的 训练 数据 对 网 络 模 型 性 能 的 影响 。 算 法 模型 采用 第 6 章 介绍 的 数字 识别 的 CNN 架 构 ， 将 原本 为 128 的 mini batch 尺 寸 改 为 512。 对 比 图 6-21， 
实验 结果 显示 : 修改 后 的 模型 其 训练 代价 函数 下 降 到 2.3 左 右 就 不 再 发 生变 化 ， 同 时 测试 的 预测 置信 度 仅 为 10.28%。 


-一 训练 成 本 
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图 10-4 ” batch 尺寸 为 512 的 损失 曲线 
3.Momentum 


Momentum (动量 ) 更 新 是 一 种 加 快 收敛 速度 的 方法 。Momentum 是 来 自 物理 中 的 概念 ， 其 基本 思想 是 在 代价 函数 中 引入 “惯性 ”， 这 样 在 代价 函数 较 平坦 (梯度 很 小 ) 的 区 域 也 可 以 根据 惯性 沿 着 
某 一 方向 继续 学 习 ， 因 此 加 快 了 网 络 的 收敛 。 


Vi= yb + nVoL(O) ( 10-4) 
0 一 GO—yv, 


动量 更 新 算法 引入 了 速度 ， 它 包含 了 参数 在 参数 空间 移动 的 方向 和 速率 ， 被 设 为 负 梯 度 的 指数 衰减 平均 。 
算法 : 使 用 动量 的 小 批量 梯度 下 降 
Require: 学 习 率 1， 动 量 参数 
Require: 初始 化 模型 参数 0， 初 始 速度 v 
while 为 满足 停止 准则 do 
从 训练 集中 采样 m 个 样本 [ (10) ，…，x 4m) } 作 为 一 个 小 批量 ， 样 本 x “i 的 真实 标签 为 y 人 


1 m f i 
C+—V,>, L x0; 0), 
计 算 梯 度 估计 : 8 m 0 i=l (f( ) J ) 


计算 速度 更 新 : Vyve1-ng 
参数 更 新 : 0=0+v 
end while 


借助 小 球 从 光滑 的 坡 上 滑落 的 物理 模型 ， 可 以 将 动量 更 新 理解 为 小 球 ( 即 参数 ) 在 山坡 〈 即 代价 函数 曲面 ) 上 滚动 的 过 程 中 ， 通 过 累计 之 前 滑行 速度 ， 在 梯度 方向 一 致 的 维度 上 小 球 可 以 获得 较 大 的 速 
度 ， 使 得 小 球 具 备 足 够 的 速度 越过 曲面 上 局 部 的 凹陷 ， 到 达 山 坡 低谷 处 。 相 对 于 SGD， 可 以 减少 参数 更 新 过 程 中 代价 函数 的 抖动 ， 获 得 更 快 的 收敛 速度 。 因 此 ， 动 量 方法 能 够 加 速 学 习 ， 万 其 适用 于 处 理 高 


曲率 、 噪 声 数据 等 问题 。 


在 实际 应 用 中 ， 选 择 合适 的 动量 参数 对 模型 的 收敛 十 分 关键， 通过 下 面 的 实验 可 以 对 比 发 现 动量 的 作用 。 本 节 实 验 同 样 参考 第 6 章 的 实验 设置 ， 仅 改变 动量 参数 。 未 调整 动量 参数 时 ， 实 验 效 果 如 图 10- 


5 所 示 ， 损 失 可 以 下 降 并 接近 0。 
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图 10-5 “momentum=0.9 的 实验 效果 图 
设置 nomentum=0.95 时 ， 虽 然 损失 仍然 在 下 降 ， 但 基本 在 2.3 左 右 就 不 再 发 生变 化 了 ， 如 图 10-6 所 示 。 


设置 momentum=0.99 时 ， 损 失 一 直 在 动荡 ， 甚 至 出 现 了 剧 增 ， 模 型 不 收敛 ， 且 效果 不 稳定 ， 如 图 10-7 所 示 。 
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图 10-6 ” momentum= 二 0.95 的 实验 效果 图 
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4.Adam 


Adam (Adaptive Moment Estimation) 是 一 种 学 习 率 自 适应 的 二 阶 优化 算法 ， 它 同时 利用 梯度 的 一 阶 和 二 阶 答 估计 动态 调整 参数 的 学 习 率 ,能 够 处 理 稀 跑 梯度 ， 且 善于 处 理 非 平稳 目标 。 对 内 存 需 
求 较 少 ， 适 用 于 大 数据 集 和 高 维 空间 。 


算法 : Adam 算 法 
Require: 学 习 率 nn (建议 默认 为 0.001) 
Require: 逢 估计 的 指数 衰减 率 ，6e1 和 6@2 在 区 间 [0，1) 内 (建议 分 别 默认 为 0.9 和 0.999) 
Require: 用 于 数值 稳定 的 小 常数 8 (建议 默认 为 10-5) 
Requite: 初始 化 模型 参数 0 
初始 化 一 阶 和 二 阶 矩 变量 s=0，r=0 
初始 化 时 间 步 t=0 
while 为 满足 停止 准则 do 
从 训练 集中 采样 个 样本 { 0) ，…，x 4m) } 作 为 一 个 小 批量 ， 样 本 x (i?) 的 真实 标签 为 y 人 


1 m 1 i 
OO 


t< 一 t 十 1 


更 新 有 偏 一 阶 矩 估计 : ss -ols+ (1-o1) g 


更 新 有 偏 二 阶 敌 估 计 : re-exrt (1-02) gOg 


Ss 
修正 一 阶 矩 的 偏差 : 1-—p, 


Fe 
修正 二 阶 矩 的 偏差 : 1-—p, 


A0=—7 
计算 更 新 : Vrs 


更 新 参数 : 09=0+A0 
end while 


Adam 通 常 对 超 参数 的 选择 达到 了 很 好 的 健壮 性 ， 并 且 能 取得 较 好 的 效果 ， 目 前 是 深度 学 习 领 域 很 受 欢迎 的 优化 算法 。 


10.3.2 ”降低 方差 

通过 减低 偏差 可 以 提高 模型 在 训练 数据 上 的 表现 。 但 实际 中 ， 评 价 一 个 机 器 学 习 模 型 的 性 能 ， 除 此 之 外 还 要 评估 它 在 未 观测 到 的 数据 上 的 表现 ， 这 就 要 求 模型 具有 良好 的 泛 化 能 力 。 本 节 将 要 介绍 的 正 
则 化 方法 能 够 提高 模型 泛 化 能 力 ， 减 少 训练 误差 和 测试 误差 的 差距 。 下 面 将 主要 介绍 几 种 常见 的 正则 化 方法 。 

1.L2 正 则 和 L1 正 则 

一 种 正则 化 方法 是 在 目标 函数 或 代价 函数 后 面 加 上 一 个 正则 项 ， 对 参数 进行 约束 ， 来 限制 模型 的 学 习 能 力 。 


将 正则 化 后 的 代价 函数 记 作 : 


L(f (xz: 0 )， y) =L(f (x; 0 )， y)+oaQ(0) ( 10-5 ) 


其 中 是 一 个 超 参数 ， 权 衡 罚 项 对 代价 函数 的 相对 贡献 ， 其 越 大 ， 则 表示 对 应 的 正则 化 惩罚 越 大 。 
这 里 介绍 比较 常见 的 L1 和 L2 正 则 化 方法 。 

(1) L2 正 则 

L2 参 数 正则 化 方法 也 叫 权重 衰减 。 通 过 向 目标 函数 添加 一 个 正则 项 ， 使 权重 更 加 接近 原点 。 


LZ(f(x:0),»)=L(f (x;0), »)+70"0 ( 10-6 ) 


与 之 对 应 的 梯度 为 


VoL(f (x;0),y)=VoL(f (x;0),y)+a0 (10-7 ) 


使 用 单 步 梯度 下 降 更 新 权重 ， 即 执行 以 下 更 新 : 


Oo (1—na)0—nVoL(f (x:;0), y) ( 10-8 ) 


可 以 看 到 ， 加 入 L2 正 则 项 后 会 影响 参数 更 新 的 规则 ， 正 则 化 之 后 的 模型 权重 在 每 步 更 新 之 后 的 值 都 要 更 小 。 


= A 
5= 一 -0 
假设 [是 一 个 二 次 优化 问题 (比如 采用 平方 代价 函数 ) ， 则 模型 参数 可 以 进一步 表示 为 ”和 +% ， 即 相当 于 在 原来 的 参数 上 添加 一 个 控制 因子 ， 其 中 是 参数 Hessian 和 矩阵 的 特征 值 。 由 此 可 见 : 


. 当 )N>>x 时 ， 德 罚 因子 作用 比较 小 。 

. 当 N<<x 时 ， 对 应 的 参数 会 缩减 至 0。 
这 表示 ， 在 显著 减 小 目标 函数 方向 上 正则 化 的 影响 较 小 ， 而 无 助 于 目标 函数 减 小 的 方向 上 对 应 的 分 量 则 在 训练 过 程 中 因为 正则 化 而 被 衰减 掉 。 
因此 增加 L2 正 则 项 ， 对 原 函 数 进 行 一 定 程 度 的 平滑 化 ， 通 过 限制 参数 在 0 点 附近 ， 减 小 输出 目标 中 协 方差 较 小 的 特征 的 权重 ， 加 快 收敛 ， 降 低 优 化 难度 。 
(2) L1 正 则 
L1 正 则 化 也 是 一 种 常见 的 正则 化 方法 ， 它 能 使 得 模型 的 参数 尽 可 能 稀 朴 化 。 模 型 参数 的 L1 正 则 化 被 定义 为 2 (6) =||6||1， 即 各 个 参数 的 绝对 值 之 和 。 


与 2 权重 衰减 类 似 ， 可 以 通过 缩放 惩罚 项 的 正 超 参 数 a 来 控制 L1 权 重 衰减 的 强度 。 因 此 ， 正 则 化 的 目标 函数 <(/ (“9), 了 ) 各 下 所 示 : 


L(f(x;0),»y)=L(f (x: 0),»y)+olol ( 10-9) 


对 应 的 梯度 (实际 上 是 次 梯度 ) : 


VL(f (x;0),y)=VoL(f (x;0),y)+asgn(0) (10-10 ) 


其 中 sgn (6) 是 符号 函数 。 


L1 正 则 化 对 梯度 的 影响 不 再 是 线性 地 缩放 每 个 6i; 而 是 添加 一 项 与 :gn (6i) 同 号 的 常数 。 使 用 这 种 形式 的 梯度 之 后 ， 不 一 定 能 得 到 人 (f(x0),» 上 = 次 近似 的 直接 算术 解 (L2 正 则 化 时 可 以 ) 。L1 参 数 


正则 化 相对 于 不 加 正则 化 的 模型 而 言 ， 每 步 更 新 后 的 权重 向 量 都 向 0 靠拢 。 因 此 L1 相 对 于 L2 能 够 产生 更 加 稀 芷 的 模型 ， 即 当 L1 正 则 在 参数 6 比较 小 的 情况 下 ， 能 够 直接 缩减 至 0。 因 此 可 以 起 到 特征 选择 的 作 
用 。 


2.Dropout 


Dropout 是 通过 修改 模型 本 身 结构 来 实现 的 ， 计 算 方便 但 功能 强大 。 图 10-8 所 示 为 三 层 人 工 神 经 网 络 。 
对 于 图 10-8 所 示 的 网 络 ， 在 训练 开始 时 ， 按 照 一 定 的 概率 随机 选择 一 些 隐藏 层 神经 元 进行 删除 ， 即 认为 这 些 神经 元 不 存在 ， 这 样 便 得 到 图 10-9 所 示 的 网 络 。 
按照 这 样 的 网 络 计算 梯度 进行 参数 更 新 〈 对 删除 的 神经 元 不 更 新 )。 在 下 一 次 迭代 时 ， 再 随机 选择 一 些 神 经 元 ， 重 复 上 面 的 做 法 ， 直 到 训练 结束 。 


Dropout 也 可 以 看 作 是 一 种 集成 (bagging) 方法 ， 每 次 迭代 的 模型 都 不 一 样 ， 最 后 以 某 种 权重 平均 起 来 ， 这 样 参数 的 更 新 不 再 依赖 于 某 些 共同 作用 的 隐 层 节点 之 间 的 关系 ， 能 够 有 效 防止 过 拟 合 。 


图 10-8 三 层 神经 网 络 


图 10-9 ”Dropout 后 的 三 层 神经 网 络 


本 节 采 用 的 实验 是 点 集 的 二 分 类 问题 。 数 据 分 布 如 图 10-10 所 示 。 
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图 10-10 ”点 集 数据 分 布 
实验 的 目的 是 找到 一 个 决策 边界 将 蓝 色 的 点 与 红色 的 点 分 开 。 如 果 不 采 用 任何 正则 化 方法 ， 得 到 的 决策 边界 如 图 10-11 所 示 。 


可 以 看 出 ， 没 有 采取 任何 正则 化 措施 ， 我 们 得 到 的 决策 边界 是 过 拟 合 的 。 分 别 加 入 L2 正 则 化 和 Dropout 正 则 化 ， 得 到 的 边界 如 图 10-12 和 图 10-13 所 示 。 
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图 10-11 无 正则 化 项 的 分 类 模型 得 到 的 决策 边界 
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图 10-12 ”加 入 L2 正 则 化 的 分 类 模型 得 到 的 决策 边界 
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图 10-13 ”加 入 Dropout 正 则 化 的 分 类 模型 得 到 的 决策 边界 
由 此 可 见 ， 加 入 正则 化 后 的 模型 得 到 的 决策 边界 缓和 了 过 拟 合 的 问题 ， 具 有 更 好 的 泛 化 能 力 。 


3.Batch normalization 


机 器 学 习 的 一 个 假设 就 是 ， 数 据 是 满足 独立 同 分 布 的 。 而 在 深度 学 习 模 型 中 ， 原 本 做 好 预 处 理 的 同 分 布 数据 在 经 过 层 层 的 前 向 传导 后 ,分 布 不 断 发 生变 化 。 随 着 网 络 的 加 深 ， 上 述 变化 带 来 的 影响 不 断 
被 放大 。Batch normalization 的 目的 就 是 对 网 络 的 每 一 层 输 入 做 一 个 处 理 ， 使 得 它们 尽 可 能 满足 输入 同 分 布 的 基本 假设 。 可 以 对 每 一 层 的 输入 做 标准 化 处 理 ， 使 得 输入 均值 为 0、 方 差 为 1: 


EX 
写作 加 
I ( 10-11 ) 


但 如 果 只 是 简单 地 对 每 一 层 做 白化 处 理 ， 会 降低 层 的 表达 能 力 。 如 图 10-14 所 示 ， 在 使 用 3igmoid 激 活 函 数 的 时 候 ， 如 果 把 数据 限制 到 0 均值 单位 方差 ， 那 么 相当 于 只 使 用 了 激活 函数 中 近似 线性 的 部 


分 ， 这 显然 会 降低 模型 表达 能 力 。 


图 10-14 Sigmoid 曲 线 


所 以 为 Batch normalization 增 加 了 两 个 参数 ， 用 来 保持 模型 的 表达 能 力 。 于 是 最 后 的 输出 为 : 


DJ = 人 多 十 DO) ( 10-12 ) 


通过 引入 这 两 个 可 学 习 的 重 构 参数 和 ， 让 网 络 可 以 学 习 恢 复出 原始 网 络 表 达能 力 的 输出 ， 同 时 又 能 保证 每 层 的 特征 分 布 尽 可 能 相近 。 最 后 batch normalization 网 络 层 的 前 向 传导 过 程 公式 就 是 : 


m 全 ( 10-13) 
XHp 
\/ az 十 后 
y, yx,+p= BN, ,(x,) 


2 
其 中 m 是 mini batch size，hp 是 mini batch 的 均值 ，2 8 是 mini batch 的 方差 。 


10.4 超 参数 调 优 


选取 合适 的 超 参数 ， 不 仅 能 很 好 地 解决 模型 的 从 拟 合 问题 ， 同 时 对 模型 的 过 拟 合 的 解决 也 有 很 大 帮助 。 但 在 深度 学 习 中 ， 超 参数 数量 大 、 取 值 范 围 各 不 相同 ， 因 此 组 合 的 情形 繁多 ， 使 得 调 参 极为 困 
难 ， 从 而 使 得 超 参数 的 选择 是 深度 学 习 中 最 为 复杂 的 步骤 之 一 。 


通常 来 说 ， 学 习 率 是 对 模型 效果 影响 较 大 的 一 个 超 参数 ， 所 以 在 学 习 率 的 选取 上 要 更 为 慎重 。 在 适当 的 学 习 率 下 ， 可 以 继续 调整 网 络 深 度 和 学 习 率 的 衰减 速度 等 超 参 数 。 下 面 将 介绍 一 些 调 参 的 技巧 。 


10.4.1 随机 搜索 和 网 格 搜索 


随机 选择 比 网 格 化 的 选择 更 加 有 效 ， 而 且 在 实践 中 也 更 容易 实现 。 网 格 搜索 (Grid Search) 是 经 典 机 器 学 习 中 应 用 非常 普遍 的 参数 选择 方法 。 但 在 深度 网 络 中 ， 网 格 搜索 搜寻 超 参 数 效率 很 低 ， 尤 其 是 
要 尝试 不 同 的 超 参数 的 组 合 ， 通 党 非 常 耗 时 。 随 着 超 参数 数量 的 增加 ， 网 格 搜索 的 计算 消耗 将 呈 指 数 级 增长 。 而 在 实际 中 ， 一 般 会 存在 部 分 超 参 数 相 较 于 其 他 超 参数 对 模型 存在 更 大 的 影响 ， 通 过 随机 搜 
索 ， 而 不 是 网 格 化 搜索 ， 可 以 高 效 、 精 确 地 上 发现 这 些 比较 重要 的 超 参数 ， 并 取得 较 好 的 效果 时 的 值 。 


10.4.2” 超 参数 范围 


超 参数 取 值 范围 可 以 优先 在 对 数 尺度 上 进行 搜索 ， 通 常 可 以 以 10 为 阶 数 进行 尝试 ， 尤 其 是 对 于 学 习 率 、 正 则 化 项 的 系数 等 ， 该 方法 效果 明显 ， 这 主要 是 因为 采用 倍 乘 的 策略 会 加 强 它们 在 动态 训练 过 程 
中 对 梯度 值 的 影响 。 例 如 ， 当 学 习 率 是 0.001 的 时 候 ， 如 果 对 其 固定 地 增加 0.01， 学 习 率 发 生 较 大 的 改变 ， 梯 度 下 降 的 幅度 也 将 随 之 大 幅 增加 ， 那 么 对 于 学 习 过 程 会 有 很 大 影响 。 然 而 当 学 习 率 是 10 的 时 候 ， 
增加 0.01 则 影响 就 微乎其微 了 。 因 此 ， 比 起 加 上 或 者 减少 某 些 值 ， 以 乘积 的 方式 改变 学 习 率 的 范围 更 加 符合 深度 网 络 学 习 过 程 。 当 然 ， 在 实际 中 也 存在 一 些 参数 (比如 Dropout) 需要 在 原始 尺度 上 (0 到 1 
之 间 ) 进行 搜索 。 


超 参 数 范围 的 相关 代码 如 下 : 


import numpy as np 

# 假 设 调 参 过 程 中 一 些 参数 的 调试 范围 如 下 

# 学 习 率 learning rate 介 于 [0.000001,1] 之 间 
r= -6*np.random.rand() 

Jearning rate = 10**r 

# 动 量 momentum 介 于 [0.9,0.999] 之 间 

m = -3*np.random.rand () 

momentum = 1-1]0**m 


#Dropout 取 值 范 围 为 [0.5,0.8] 
dropout = 0.5+0.3*np.random.rand() 


10.4.3 ”分 阶段 搜索 


在 实践 中 ， 另 外 一 个 有 效 的 策略 是 先进 行 粗略 范围 (比如) 搜索 ， 然 后 根据 好 的 结果 出 现 的 位 置 ， 进 一 步 在 该 位 置 附近 范围 进行 更 细致 的 搜索 。 在 粗略 范围 搜索 的 阶段 ， 每 次 训练 一 个 周期 即 可 ， 这 是 
因为 初始 时 超 参数 的 设 定 是 随机 的 、 无 意义 的 ， 甚 至 会 让 模型 无 法 学 习 到 任何 有 用 的 知识 。 而 在 细致 搜索 阶段 ， 就 可 以 多 运行 几 个 周期 。 


10.4.4 例子 : 对 学 习 率 的 调整 


学 习 率 是 深度 学 习 中 相对 难 设置 的 超 参 数 。 将 学 习 率 设置 得 太 小 ， 会 导致 梯度 下 降 速 度 过 慢 ， 网 络 收 敛 慢 ; 而 将 学 习 率 设置 得 过 大 ， 会 导致 结果 越过 最 优 值 ， 甚 至 由 于 震荡 而 出 现 梯度 爆炸 现象 。 
我 们 以 第 6 章 数字 识别 任务 为 例 说 明 学 习 率 的 影响 ,代码 如 代码 清单 10-1 所 示 。 第 6 章 实验 环节 选用 的 学 习 率 为 0.01/128， 而 保持 其 他 参数 和 设置 不 变 ， 分 别 将 学 习 率 设置 为 0.000 01/128.0 和 1.0/128.0 


重新 进行 实验 ， 实 验 结果 的 cost 图 和 测试 结果 记录 如 图 10-15 ~ 图 10-17 所 示 。 


代码 清单 10-1 数字 识别 实验 原始 设置 


optimizer = Padqddqle.optimizer.Momentum ( 
learning rate=0.01 / 128.0, 
momentum=0 .9, 
regularization=paddle.optimizer.L2Regularization (rate=0.0005 * 128)) 


-一 训练 成 本 
测试 成 本 
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由 此 上 结果 可 以 看 到 ， 当 学 习 率 过 小 时 ( 即 0.000 01/128.0) ， 网 络 收敛 过 慢 ， 相 同 迭 代 次 数 下 训练 得 到 的 模型 效果 较 差 ， 当 学 习 率 过 大 时 ( 即 1.0/128.0) ， 由 于 梯度 下 降幅 度 较 大 ， 总 是 越过 局 部 最 
优 值 ， 网 络 无 法 收敛 。 只 有 在 选择 合适 的 学 习 率 ( 即 0.01/128.0) 的 情况 下 ， 才 能 快速 而 有 效 地 完成 网 络 的 训练 。 
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图 10-16 学习 率 =0.00001/128 的 实验 效果 图 


-一 训练 成 本 
测试 成 本 
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图 10-17 学 习 率 =1.0/128.0 的 实验 效果 图 


本 章 小 结 


本 章 主要 介绍 了 深度 学 习 工程 实践 的 基础 知识 和 实用 技巧 。 主 要 包括 如 何 设计 一 个 合理 的 实践 流程 、 确 定 目 标 及 评估 指标 ， 让 大 家 对 深度 学 习 工 程 的 迭代 本 质 有 一 个 基本 的 认识 。 在 深度 学 习 实验 中 ， 
要 不 断 观察 实验 中 各 项 指标 的 变化 ， 并 对 当前 系统 出 现 的 问题 做 出 判断 。 若 系统 处 于 从 拟 合 ， 可 以 通过 降低 偏差 的 方法 来 调整 ; 若 模型 处 于 过 拟 合 状态 ， 可 以 通过 降低 方差 的 策略 来 优化 系统 。 超 参数 的 调 
整 也 是 深度 学 习 中 重要 又 烦琐 的 部 分 ， 对 于 降低 偏差 和 方差 都 有 一 定 的 效果 ， 是 调 优 的 重要 手段 ， 本 章 对 此 给 出 了 一 些 经 验 性 建议 ， 并 通过 例子 来 说 明 超 参数 调整 的 重要 性 ， 使 读者 有 更 直观 、 深 入 的 理 
解 。 希 望 通过 本 章 的 学 习 ， 能 够 帮助 读者 解决 在 深度 学 习 系统 中 出 现 的 困难 ， 成 功 搭 建 自 己 的 深度 学 习 系统 。 


